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Kurzfassung 


Die  Verwendung  von  Neurochips  mit  der  Fahigkeit  des  On-chip-learning 
stellt  eine  Losung  dar  fur  den  Aufbau  massiv  paralleler  Neurosysteme.  Bei 
der  Implementierung  eines  solchen  Chips  kann  analoge  oder  digitale  Tech- 
nik  verwendet  werden,  die  aber  unterschiedliche  Vor-  und  Nachteile  auf- 
weist.  Ein  auf  der  stochastischen  Rechentechnik  basiertes  Verfahren  wurde 
von  Riemschneider  u.a.  vorgeschlagen  [51],  welches  die  Vorteile  der  beiden 
Techniken  ausnutzt  und  den  bekannten  Backpropagation-Algorithmus  als 
Lemregel  verwendet.  Uber  die  Auswahl  der  Netzparameter  und  die  Kon¬ 
vergenzeigenschaften  bei  groften  Netzen  wurden  bisher  jedoch  sehr  wenig 
Aussagen  getroffen.  Deshalb  wird  in  der  vorliegenden  Arbeit  eine  ausfuhrli- 
che  Untersuchung  zum  Lernverhalten  der  durch  das  vorgeschlagene  Verfah¬ 
ren  implementierten  Netze  durchgefiihrt.  Die  Untersuchung  basiert  auf  der 
Ebene  der  mathematischen  Herleitung  und  Software-Simulation.  Eine  1:1- 
Abbildung  der  Netzparameter  zu  denen  der  konventionellen  BP- Verfahren 
wird  mathematisch  hergeleitet.  Dadurch  werden  Unter-  und  Obergrenzen 
der  Netzparameter  abgeschatzt  und  mit  Beispielen  per  Software-Simulation 
bestatigt.  Die  potentiell  einschrankenden  Einfluftgroften  des  vorgestellten 
Verfahrens  werden  dann  griindlich  studiert  und  anschlieftend  werden  ent- 
sprechende  Gegenmafinahmen  vorgeschlagen.  Den  Schwerpunkt  bildet  die 
Einfuhrung  eines  modifizierten  Neurons,  welches  sich  leicht  in  das  vorhan- 
dene  Verfahren  integrieren  laftt  und  dessen  Ausgangssignal  ebenfalls  einer 
S-formigen  Funktion  entspricht.  Das  modifizierte  Neuron  ist  in  vieler  Hin- 
sicht,  z.B.  bessere  Konvergenzeigenschaften  beim  Training,  dem  Vorganger 
liberlegen.  Dieser  Ansatz  wird  dann  durch  eine  Software-Simulation  mit 
unterschiedlichen  Beispielen  bestatigt. 

Hinsichtlich  der  Ergebnisse  der  Untersuchung  und  der  Software-Simulation 
wird  festgestellt,  daft  der  gleichzeitig  auftretende  Arbeit s-  und  Lernvorgang 
(das  sogenannte  Gegenstrom-Verfahren)  keine  negativen  Einfliisse  auf  die 
Konvergenzeigenschaften  des  vorgestellten  Verfahrens  erkennen  laftt.  Die 
Verwendung  der  mittelnden  Addition  statt  einer  arithmetischen  Addition 
fur  die  Summation  der  gewichteten  Neuroneneingange  (das  sogenannte  -h— 
Mittelungsverfahren)  bringt  ebenfalls  keine  Schwierigkeit  fur  die  Konvergenz 
des  Verfahrens  beim  Training,  sofern  eine  steilere  S-Funktion  eingesetzt 
wird. 

Zum  Schlufi  wird  lediglich  eine  sehr  grobe  Abschatzung  zur  Skalierbarkeit 
des  vorgestellten  Verfahrens  getroffen.  Jedoch  wird  ein  moglicher  Weg  zu 
einer  genaueren  und  quantitativen  Aussage  der  Skalierbarkeit  aufgezeigt. 
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Einleitung 


1.1  Motivation 

Das  menschliche  Gehirn  ist  seit  langer  Zeit  ein  faszinierendes  Forschungsge- 
biet.  Viele  Wissenschaffcler  aus  fast  alien  Disziplinen  machen  unermiidlich 
grofie  Anstrengungen,  um  seine  Arbeitsweise  zu  verstehen  mit  dem  Ziel, 
da£  man  es  teilweise  nachbilden  kann.  Neuronale  Biologen  haben  angefan- 
gen,  die  Reizreaktion  einzelner  Neuronen  auf  der  physiologischen  Ebene  zu 
erforschen,  wahrend  sich  Psychologen  die  Gehimfiinktionen  auf  der  kogni- 
tiven  und  verhaltensorientierten  Ebene  erarbeiten.  Man  hofft,  daft  sich  die 
beiden  Gruppen  eines  Tages  irgendwo  auf  dem  Forschungsweg  treffen,  so 
daft  die  Ratsel  des  menschlichen  Gehirns  gelost  werden  konnen.  Aber  bis 
dahin  liegt  noch  ein  langer  Weg  vor  uns.  Elektrotechnische  Ingenieure  und 
Informatiker  wollen  und  konnen  nicht  so  lange  warten.  Sie  versuchen  stan- 
dig  mit  Hilfe  der  bisherigen  Ergebnisse  und  ebenfalls  mit  Unterstiitzung  der 
Mathematiker,  die  wesentliche  Funktion  des  menschlichen  Gehirns,  namlich 
die  Lernfahigkeit  des  Menschen,  nachzubilden  oder  zu  simulieren.  Dafiir 
wurden  Software-  und  Hardwaresysteme  entwickelt,  die  kiinstliche  Neuro¬ 
nale  Netze  (ANN  oder  NN  als  Kurzform)  genannt  werden. 

Verglichen  mit  konventioneller  Datenverarbeitung  ist  die  Lernfahigkeit  die 
entscheidende  Eigenschaft  eines  NN.  Der  Prozessor  eines  Computers  kann 
als  ein  einzelnes  Neuron  betrachtet  werden,  der  Informationen  bearbeiten 
kann.  Aus  diesem  Blickfeld  ist  die  Softwarerealisierung  eines  NN  auf  ei- 
nem  konventionellen  Computer  keine  gute  Losung,  weil  Informationen,  im 
Gegensatz  zur  massiv  parallelen  Informationsverarbeitung  im  menschlichen 
Gehirn,  nur  seriell  bearbeitet  werden  konnen.  Die  Softwarerealisierung  auf 
Rechnern  mit  Multiprozessoren  hat  einerseits  die  Schwierigkeit  der  Kom- 
munikation  zwischen  Neuronen,  wenn  die  Anzahl  der  Prozessoren  relativ 
groft  ist,  anderseits  ist  die  Komplexitat  der  heutigen  parallelen  Multipro- 
zessorsysteme  nicht  vergleichbar  mit  der  Neuronenanzahl  des  menschlichen 
Gehirns  (ca.  1010).  So  versuchen  Naturwissenschaftler  und  Ingenieure,  spe- 
zielle  Hardware  fur  NNs  aufzubauen,  welche  die  wesenseigene  Parallelitat 
neuronaler  Methoden  nutzen  kann. 

Der  Aufbau  von  Neurochips  mit  der  Fahigkeit  des  On-chip-leaming  konn- 
te  eine  Losung  sein,  um  obigen  Erwartungen  in  Richtung  massiv  paralle- 
ler  Systeme  naher  zu  kommen.  Man  hofft,  daft  man  durch  solche  Neu¬ 
rochips  gro£e  neuronale  Netze  leicht  aufbauen  kann,  um  den  Einsatz  von 
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NNs  weiter  voranzutreiben.  Bei  der  Implementiening  eines  solchen  Chips 
kann  analoge  oder  digitale  Technik  verwendet  werden,  die  aber  unterschied- 
liche  Vor-  und  Nachteile  aufweist.  Eine  analoge  Implementiening  benotigt 
weniger  Chipflache  und  besitzt  mehr  Ahnlichkeiten  mit  biologischen  neuro- 
nalen  Netzen.  Ein  solches  Chip  konnte  dann  mit  hoherer  Geschwindigkeit 
betrieben  werden.  Aber  die  begrenzte  Genauigkeit  ist  ein  grofies  Hindemis 
fur  den  Einsatz  mancher  Trainingsalgorithmen  (z.B.  dem  Backpropagation- 
Algorithmus,  der  eine  bestimmte  Mindestgenauigkeit  zum  Rechnen  erfor- 
dert,  siehe  [44]).  Schwierigkeiten  beim  Speichem  der  Gewichte,  Empfind- 
lichkeit  auf  Umgebungseinfliisse  (z.B.  Rauschen,  Temperatur,  usw.)  und  ein 
relativ  komplizierter  Entwurfsvorgang  miissen  in  Kauf  genommen  werden. 
Mafinahmen  gegen  solche  Nachteile  bedeuten  oft  mehr  Platzbedarf  auf  dem 
Neurochip,  so  da£  die  Vorteile  sich  praktisch  nicht  nutzen  lassen.  Bei  der 
digitalen  Implementierung  dagegen  kann  hohere  Genauigkeit  erreicht  und 
beim  Entwurf  konnen  vor  allem  state-of-the-art  Techniken  mit  VLSI  und 
ULSI  verwendet  werden.  Dadurch  wird  die  Chiprealisierung  erheblich  ver- 
einfacht.  Ihr  wesentlicher  Nachteil  ist  der  hohe  Platzbedarf  auf  dem  Chip. 
Eine  digitale  Multiplizierschaltung  z.B.  nimmt  mehr  Chipflache  in  Anspruch 
als  ihr  analoges  Pendant  [30].  In  Anbetracht  der  obengenannten  Umstande 
sind  viele  Wissenschaftler  mit  vollem  Einsatz  auf  der  Suche  nach  einer  Kom- 
promifcldsung,  die  die  Vorteile  von  beiden  Techniken  vereinen  konnte.  So 
tauchten  sogenannte  hybride  Chips  auf,  die  mit  beiden  Techniken  implemen- 
tiert  wurden  [11]  [12].  Gegenuber  der  analogen  Technik  bevorzugen  viele 
Informatiker  und  Elektrotechniker  den  digitalen  Konkurrenten  wegen  seiner 
Flexibilitat  und  Leichtigkeit  beim  Entwurf  des  Chips  und  seiner  hoheren  Ge¬ 
nauigkeit.  Ein  anderer  Ansatz  zur  Einsparung  von  Chipflache  versucht  die 
neuronalen  Algorithmen  so  abzuwandeln,  dafi  die  Multiplikationsoperation 
vermieden  wird  [17]  [41]. 

Der  Einsatz  von  stochastischen  Rechenwerken  konnte  eine  potentielle  Lo- 
sung  sein  und  ist  ein  interessantes  Forschungsgebiet  fur  die  digitale  Imple¬ 
mentierung  lernfahiger  Neurochips.  In  der  stochastischen  Rechentechnik, 
die  in  den  sechziger  Jahren  entwickelt  und  danach  vemachlassigt  wurde 
[36],  wird  jeder  Datenwert  durch  eine  binare  Bitfolge  reprasentiert,  deren 
Wahrscheinlichkeit  fur  das  Auftreten  einer  Eins  dem  Datenwert  entspricht. 
Dadurch  kann  eine  Multiplikation  zwischen  Datenwerten  durch  eine  UND- 
oder  Aquivalenz-Verkniipfung  (je  nachdem,  ob  unipolare  oder  bipolare  Co- 
dierung  verwendet  wird)  der  entsprechenden  Bitfolgen  realisiert  werden  [63]. 
So  ist  der  Aufbau  eines  Neurochips  mit  Lemfahigkeit  und  auf  der  Basis 
stochastischer  Rechenwerke  ein  interessantes  Thema  geworden.  Allerdings 
liegen  dafiir  bisher  nur  wenige  Realisierungsansatze  vor.  Der  erste  derar- 
tige  Chip  griindet  auf  Arbeiten  von  Tomlinson  [65].  In  dieser  Richtung 
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wurden  spater  noch  einige  Vorschlage  gemacht  [7]  [53]  [54]  (Verwendung 
einer  unipolaren  Codierung)  [67]  [69]  und  [68]  (Verwendung  einer  bipola- 
ren  Codierung),  welche  die  Idee  von  Tomlinson  aufgriffen  und  verbesserten. 
Dennoch  sind  weiterfuhrende  Details  und  Anwendungsbeispiele  bisher  nicht 
bekannt.  Li  dieser  Situation  wurde  von  Riemschneider  ein  Verfahren  vor- 
geschlagen,  welches  eine  im  Aufwand  giinstige  Hardwareschaltung  befahigt, 
den  Trainingsvorgang  in  neuronalen  Netzen  der  Backpropagation-KIasse 
on-chip  auszufiihren  [51]. 

Im  Unterschied  zu  vergleichbaren  Ansatzen  zeichnet  sich  sein  Verfahren 
durch  folgende  Eigenschaften  aus: 

•  Eine  bipolare  Codierung,  welche  jede  Maschinengrole  in  einen  Bit- 
strom  umwandelt  und  verarbeitet.  Dadurch  werden  die  Darstellung 
und  Verarbeitung  vorzeichenbehafteter  Grolen  erlaubt.  So  konnen 
nun  mit  Hilfe  von  einfachen  Schaltungen  Multiplikationen,  die  im 
Backpropagation-Algorithmus  von  zentraler  Bedeutung  sind,  direkt 
und  vorzeichenrichtig  ausgefuhrt  werden. 

•  Die  Implementierung  der  notwendigen  Nichtlinearitaten  und  deren 
Ableitungen  durch  stochastische  Automaten.  Die  Form  der  Nichtli¬ 
nearitaten  (Steilheit  der  sigmoidahnlichen  bzw.  Hohe  der  sigmoid- 
ableitungsahnlichen  Funktionen)  ist  einstellbar  und  von  der  Netz- 
struktur  unabhangig,  im  Gegensatz  zu  den  bisher  bekannten  einfachen 
Ansatzen  (vorzeichenbehaftete  OE-Verkniipfung). 

•  Im  Gegensatz  zu  den  anderen  Methoden,  die  einen  vereinfachten  und 
geanderten  BP-Algorithmus  verwenden,  ermoglichen  die  obigen  Punk- 
te,  ein  Netz  von  der  Backpropagation-KIasse  durch  einen  typischen 
BP-Algorithmus  mit  Momentum-Term,  der  in  der  Literatur  zu  NNs 
als  sehr  erfolgreich  beschrieben  wurde,  zu  implementieren. 

•  Der  BP-Lemmechanismus  wurde  intern  auf  dem  Neurochip  integriert. 
Dadurch  konnen  die  Arbeits-  und  die  Lernphase,  vergleichbar  einem 
Gegenstromverfahren,  gleichzeitig  wirksam  sein.  Auch  konnte  Riem¬ 
schneider  nachweisen,  dal  sich  die  Verkniipfungen  zwischen  den  Neu- 
ronen  und  ihren  Bestandteilen  so  anordnen  lassen,  dal  sich  Neuronale 
Netze  variabler  Struktur  und  Grofie  durch  geeignete  Kombination  und 
Verschaltung  solcher  Chips  aufbauen  lassen. 

1.2  Zielsetzung 

Ziel  der  folgenden  Arbeit  ist  es,  das  in  [51]  vorgeschlagene  Verfahren  ei¬ 
ner  erweiterten  wissenschaftlichen  Analyse,  Bewertung  und  einer  moglichen 
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Verbesserung  zu  unterziehen,  dies  insbesondere  im  Hinblick  darauf,  ob  und 
auf  welche  Weise  das  Verfahren  skalierbar  ist  und  sich  damn  neue  und  prak- 
tische  Anwendungsfelder  erschliefien  lassen.  Die  Untersuchung  basiert  auf 
einer  Software-Simulation  und  einer  theoretischen  Analyse  des  Verfahrens, 
indem  Konvergenzanalyse,  Vorschlage  zur  Parameterwahl  und  Skalierbar- 
keit  des  Verfahrens  als  Schwerpunkte  behandelt  werden. 

Die  richtigen  Netzparameter  (Lernparameter,  Anzahl  der  Neuronen  in  der 
verborgenen  Schicht,  u.s.w.)  zu  wahlen  ist  fur  das  BP— Netz  immer  eine 
Herausforderung,  weil  dies  die  Konvergenzgeschwindigkeit  oder  sogar  die 
Konvergenz  des  Trainings  iiberhaupt  entscheiden  kann.  Bei  der  Software- 
Implementierung  des  BP-Netzes  kann  man  wahrend  des  Trainings  verschie- 
dene  Parameter-Kombinationen  ausprobieren  und  dann  die  besten  wahlen. 
Dagegen  ist  dies  bei  der  Hardware-Implementierung  nicht  so  leicht  zu  errei- 
chen.  Eine  umfangreiche,  haufige  und  damit  flexible  Einstellung  der  Netzpa¬ 
rameter  ist  bei  der  Hardware-Losung  nicht  vorgesehen.  Man  kann  hochstens 
einige  Parameter  wahrend  des  Trainings  oder  vorher  in  einem  kleinen  Um- 
fang  stufenweise  einstellen.  Wegen  der  hohen  Geschwindigkeit  gegeniiber 
der  Software-Implementierung  des  BP-Netzes  sind  die  feinen  Einstellun- 
gen  der  Trainingsparameter  bei  der  Hardware  nicht  entscheidend,  solange 
das  Training  konvergiert.  In  dem  Sinne  ware  es  ausreichend,  dafi  die  oberen 
und  unteren  Grenzwerte  der  Parameter  gefunden  werden,  so  dafi  die  Konver¬ 
genz  des  Trainings  immer  gewahrleistet  wird,  wenn  die  Trainingsparameter 
dazwischen  liegen.  In  der  folgenden  Arbeit  werden  zuerst  Anstrengungen 
unternommen,  urn  solche  oberen  und  unteren  Grenzen  der  Trainingsparame¬ 
ter  herauszufinden  und  einen  Leitfaden  zur  Parameterwahl  fur  das  Training 
zu  erstellen.  Dariiber  hinaus  wird  die  Empfindlichkeit  des  Trainings  ge- 
genuber  den  Werten  der  gewahlten  Trainingsparameter  unter  verschiedenen 
Hardware-Komponenten  anaiysiert  und  untersucht.  Das  Ziel  besteht  dar- 
in,  dafi  nur  solche  Hardware-Komponenten  verwendet  werden  sollen,  mit 
denen  die  Konvergenz  des  Netzes  weniger  empfindlich  auf  die  Trainingspa¬ 
rameter  reagiert.  Mit  anderen  Worten:  es  soil  mehr  Toleranz  fur  die  Werte 
der  gewahlten  Trainingsparameter  erreicht  werden. 

Die  mogliche  Skalierbarkeit  des  in  [51]  vorgeschlagenen  Verfahrens  soli  durch 
reine  Software-Simulation  anhand  umfangreicher  Beispiele  untersucht  und 
bestatigt  werden.  Dafiir  mufi  zunachst  geklart  werden,  welche  Bauteile  des 
vorgestellten  Verfahrens  eine  solche  Skalierung  moglicherweise  behindem. 
Wenn  solche  Einschrankungen  wirklich  bestehen,  dann  ist  weiterhin  nach 
Techniken  zu  suchen,  die  als  Mafinahmen  gegen  solche  Einschrankungen 
eingesetzt  werden  konnen. 


1.3.  Aufbau  der  Arbeit 
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1.3  Aufbau  der  Arbeit 

Das  Kapitel  1  sollte  eine  kurze  Einleitung  zur  Problemstellung  sowie  Ziel- 
setzung  der  vorliegenden  Arbeit  geben.  Tiber  die  Hintergriinde  dieser  Ar¬ 
beit  und  den  aktuellen  Forschungsstand  auf  dem  Gebiet  der  Hardware- 
Implementierung  des  ANN  wurde  ebenfalls  gesprochen. 

Die  Grundlagen  des  ANN  in  Kapitel  2  dienen  als  Ubergang  zur  weiteren 
detaillierten  Diskussion  in  den  nachstehenden  Kapiteln.  AuEer  den  grund- 
legenden  Begriffen  von  ANN  und  BP-Netz  wird  die  Umsetzung  von  kon- 
ventionellen  zu  stochastischen  Rechentechniken  bei  der  Implementierung 
des  BP-Netzes  als  Schwerpunkt  erklart.  Dies  betrifft  vor  allem  die  soge- 
nannte  Codierung,  die  eine  Maschinenvariable  (eine  physikalische  GroEe)  in 
eine  binare  Bitfolge  umwandelt.  Die  Implementierung  der  Elementaropera- 
tionen  (Addition,  Multiplikation,  usw.)  mit  stochastischen  Rechenwerken 
und  die  Implementierung  der  nichtlinearen  Uberfuhrungsfunktion  und  deren 
Ableitung  werden  hier  kurz  zusammengefaEt. 

Im  Kapitel  3  werden  die  Strategien  zur  Parameterwahl  fur  das  vorgestellte 
Verfahren  durch  Herstellung  eines  mathematischen  Zusammenhangs  zwi- 
schen  dem  Verfahren  und  dem  konventionellen  BP-Algorithmus  herausge- 
funden  und  festgelegt.  Durch  das  Studieren  der  speichernden  Glieder  (IN¬ 
DIE  und  ADDIE),  die  sowohl  fur  die  Speicherungen  als  auch  Modifikationen 
der  Gewichte  zustandig  sind,  wird  eine  l:l-Abbildung  der  Lernparameter 
im  vorgestellten  Verfahren  zu  denen  des  konventionellen  BP-Algorithmus 
mathematisch  abgeleitet.  Mit  Hilfe  dieser  l:l-Abbildung  kann  ein  Leitfa- 
den  zur  Auswahl  der  Lernparameter  fur  das  Training  des  Netzes  festgestellt 
werden,  weil  die  Bedeutung  und  EinfluEstarke  der  Lernparameter  im  kon¬ 
ventionellen  BP-Algorithmus  wie  Lemrate  7,  Steilheit  /?  und  Momentum- 
Konstante  a  aus  der  Literatur  bekannt  sind  und  viele  Vorschlage  zu  ihrer 
Wahl  gemacht  wurden.  Dariiber  hinaus  werden  Unter-  und  Obergrenze  der 
Lernparameter  des  vorgestellten  Verfahrens  festgestellt  und  durch  einige 
Beispiele  bestatigt. 

Kapitel  4  ist  das  zentrale  Kapitel  dieser  Arbeit.  Es  untersucht  die  po- 
tentiellen  Einschrankungen  im  vorgestellten  Verfahren  im  Hinblick  auf  ihre 
Auswirkungen  auf  die  Konvergenz  beim  Training.  Die  Einschrankungen 
ergeben  sich  aus  der  Verwendung  der  stochastischen  Rechentechnik.  Die 
Untersuchung  wird  sowohl  durch  mathematische  Herleitung  als  auch  durch 
Software-Simulation  mit  geeigneten  Beispielen  durchgefiihrt.  Uber  die  Zu- 
sammenwirkung  aller  Einschrankungen  auf  die  Konvergenzeigenschaften  des 
Verfahrens  wird  ebenfalls  gesprochen.  Danach  werden  mogliche  MaEnah- 
men  gegen  die  negativen  Auswirkungen  der  Einschrankungen  vorgestellt. 
Den  Schwerpunkt  bildet  die  Einfiihrung  eines  modifizierten  Neurons,  das 
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zum  Mechanismus  des  vorhandenen  Verfahrens  pafit  und  viele  positive  Ei- 
genschaften  mit  sich  bringt.  Um  die  Auswirkungen  der  Gegenmafinah- 
men  zu  bestatigen,  werden  geeignete  Beispielklassen  ausgewahlt,  die  unter 
vertretbarem  Rechenaufwand  per  Software-Simulation  Trainingsergebnisse 
liefern  konnen.  Hinsichtlich  der  Ergebnisse  aus  der  Software-Simulation 
schliefit  das  Kapitel  mit  einer  bewertenden  Diskussion  der  Gegenmafinah- 
men  und  einer  Schlufibemerkung  zum  vorgestellten  Verfahren  ab. 

Im  letzten  Kapitel  5  werden  alle  Untersuchungen  dieser  Arbeit  in  kurzer 
Form  zusammengefafit  und  ein  Ausblick  auf  bisher  noch  offen  gebliebene 
wissenschaftliche  Fragestellimgen  gegeben.  Eine  quantitative  Aussage  iiber 
die  Skalierbarkeit  des  vorgestellten  Verfahrens  wird  in  dieser  Arbeit  nicht 
getroffen;  stattdessen  wird  die  Verwendung  des  Gesetzes  der  grofien  Zahl 
aus  der  Theorie  der  Wahrseheinlichkeit  und  Statistik  vorgeschlagen,  die 
zu  einer  moglichen  quantitativen  Aussage  der  Skalierbarkeit  fiihren  konnte. 
Die  Grundlagen  des  Gesetzes  der  grofien  Zahl  und  ihr  Zusammenhang  zum 
Thema  der  Skalierbarkeit  des  vorgestellten  Verfahrens  werden  im  Anhang 
B  erlautert. 


2  Einfiihrende  Grundlagen  zu 
Backpropagation-Netzen 

Backpropagation-Netze  (BP-Netze  als  Abkiirzung)  sind  mehrschichtige  vor- 
wartsgerichtete  Netze  mit  einer  Sigmoidfunktion  als  Aktivierungsfunktion 
und  Backpropagation  als  Lernverfahren.  Die  Begriffe  in  dieser  Definition 
werden  nachfolgend  detailliert  erlautert. 

2.1  Netzaufbau 

Ein  neuronales  Netz  besteht  aus  Neuronen  und  Verkniipfungen.  Neuronen 
sind  Verarbeitungseinheiten  von  Signalen  der  Auftenwelt  oder  anderer  Neu¬ 
ronen.  In  der  vorliegenden  Arbeit  wird  nur  von  Neuronen  mit  Sigmoid-  oder 
sigmoid-ahnlichen  Funktionen  als  Aktivierungsfunktion  gesprochen.  Ver- 
kniipfungen  sind  Verbindungen  eines  Neurons  zu  anderen  Neuronen  oder 
der  physikalischen  Aufienwelt.  Die  Starke  der  Verbindung  zwischen  einem 
Neuron  i  und  einem  Neuron  j  wird  durch  das  sogenannte  Gewicht  repra- 
sentiert,  welches  der  Synapse  in  einem  naturlichen  Nervensystem  entspricht 
und  in  der  Kurzform  als  Wij  bezeichnet  wird.  Die  Abbildung  2.1  zeigt  zwei 
Neuronen  und  ihre  Verbindung. 


Abb .  2.1:  Neuronen  und  Verkniipfungen 

Verschiedene  Verbindungen  zwischen  Neuronen  fuhren  zu  unterschiedlichen 
Topologien  neuronaler  Netze.  Man  kann  sie  aber  in  zwei  wesentliche  Klas- 
sen  unterteilen,  die  sogenannten  vorwartsgerichteten  Netze  ( feedforward  net¬ 
works)  sowie  Netze  mit  Ruckkopplimgen  ( feedback  networks).  Offensichtlich 
enthalt  ein  vorwartsgerichtetes  Netz  keine  Riickkopplung  und  die  Informa- 
tionen  fur  die  Verarbeitung  fliefien  nur  in  eine  festgelegte  Richtung.  Diese 
Arbeit  beschrankt  sich  auf  die  Betrachtung  vorwartsgerichteter  Netze. 
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2.1.1  Multilayer  Netz  (MLN) 

Eine  haufig  anzutreffende  Architektur  fur  vorwartsgerichtete  Netze  ergibt 
sich  durch  die  Hintereinanderschaltung  mehrerer  Neuronenschichten,  wobei 
die  Neuronen  einer  Schicht  nicht  miteinander  oder  mit  sich  selbst  verbun- 
den  sind.  Verbindungen  bestehen  ausschliefclich  von  jedem  Neuron  einer 
Schicht  zu  den  Neuronen  der  nachstehenden  Schicht.  Die  Schicht,  von  der 
das  Netz  eine  Eingabe  von  der  Aufienwelt  erhalt,  wird  als  Eingangsschicht 
bezeichnet.  Hier  findet  keine  Informationsverarbeitung  statt,  sondern  es 
wird  nur  eine  Verbindung  zur  Aufienwelt  hergestellt.  Somit  wird  sie  fur 
die  Anzahl  der  Schichten  eines  Netzes  nicht  gezahlt.  Die  Schicht,  von  der 
die  Ausgabe  eines  Netzes  erfolgt,  wird  als  Ausgangsschicht  bezeichnet.  Ei¬ 
ne  Zwischenschicht,  welche  weder  direkte  Eingaben  bekommt  noch  direkte 
Ausgaben  liefern  kann,  nennt  man  verborgene  Schicht  ( hidden  layer).  Neu- 
ronale  Netze  mit  einer  solchen  schichtweisen  Architektur  bezeichnet  man  als 
mehrschichtige  vorwartsgerichtete  Netze  ( Multilayer  Feedforward  Networks , 
MLN). 

Aus  mathematischer  Sicht  ist  ein  NN  eine  Abbildung,  die  gewisse  Werte- 
mengen  (Eingaben  des  Netzes)  in  andere,  zugeordnete  Wertemengen  (Aus¬ 
gaben)  abbilden  kann. 

x  e  Rn> y  €  Rm  (2.1) 

In  der  Literatur  ([10],  [21],  [37],  [42]  und  [50])  wurde  nachgewiesen,  dafc 
sich  mit  Hilfe  eines  NN  mit  nur  einer  verborgenen  Schicht  theoretisch  jede 
reelle  Funktion  beliebig  genau  annahern  lafit.  Daher  beschrankt  man  sich 
bei  praktischen  Problemstellungen  meist  auf  zweischichtige  Netze,  die  in  der 
Eegel  weniger  Implementierungsaufwand  als  Netze  mit  mehreren  verborge¬ 
nen  Schichten  verursachen.  Im  Einzelfall  mufi  aber  untersucht  werden,  mit 
welcher  Anzahl  von  Schichten  und  Neuronen  je  Schicht  eine  Problemstellung 
am  besten  gelost  werden  kann. 

2.1.2  Anzahl  der  Neuronen  in  einem  MLN 

2.1. 2.1  Ein-  und  Ausgangsschichten 

Wie  oben  gesagt,  bilden  Ein-  und  Ausgangsschichten  eines  MLN  die  Schnitt- 
stelle  zur  Aufcenwelt.  Dadurch  sind  ihre  Dimensionen  schon  von  der  zu 
losenden  Aufgabenstellung  bestimmt.  Wenn  z.  B.  die  Abbildung  in  der 
Gleichung  (2.1)  durch  ein  MLN  implementiert  werden  soil,  dann  besitzen 
dessen  Ein-  und  Ausgangsschichten  jeweils  n  und  m  Neuronen.  Oft  ist  es 
jedoch  sinnvoll,  die  urspriingliche  Aufgabenstellung  umzuformen,  damit  die 
Aufgabe  leichter  von  einem  MLN  bewaltigt  werden  kann.  Beispiel: 


2.1.  Netzaufbau 
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Aufgab  enstellung:  Erkennung  von  hexadezimalen  Zahlen  im  Bereich  0...F 
durch  ein  MLN 

Eingabe:  n  Pixel  eines  Binarwertbildes  von  hexadezimalen  Zah¬ 

len 

Ausgabe:  hexadezimale  Zahl  als  Wert 

Beim  Losen  dieser  Aufgabenstellung  benotigt  das  Netz  offensichtlich  n  Ein- 
gange,  wobei  sich  n  je  nach  Auflosung  des  Binarwertbildes  andem  kann.  Fur 
die  Ausgabe  reichen  vier  Neuronen  gut  aus,  weil  eine  Binarstelle  der  hexa¬ 
dezimalen  Zahl  einem  Neuron  entsprechen  kann.  In  der  Praxis  ist  es  jedoch 
besser,  jeder  Klasse,  d.h.  jeder  einzelnen  Hexadezimalzahl  im  vorgegebenen 
Bereich,  ein  Neuron  zuzuordnen,  um  das  Training  des  Netzes  zu  erleichtem 
([28]  und  [30]).  Dies  fuhrt  zu  16  Neuronen  in  der  Ausgangsschicht. 

2. 1.2. 2  Verborgene  Schichten 

Uber  die  Festlegung  der  Anzahl  von  Neuronen  in  verborgenen  Schichten 
findet  sich  vergleichsweise  wenig  in  der  Literatur.  Diese  Anzahl  bestimmt 
die  Netzkapazitat  und  ist  von  der  Aufgabenstellung  abhangig.  Die  Frage, 
wieviele  Neuronen  man  fiir  die  verborgene  Schicht  verwenden  sollte,  ahnelt 
der,  von  welchem  Grad  ein  Polynom  sein  sollte,  um  eine  gegebene  Funk- 
tion  am  besten  anzunahern.  Rojas  [55]  hat  eine  untere  Schranke  fiir  die 
Anzahl  der  Neuronen  in  der  verborgenen  Schicht  aufgewiesen,  Zitat:  „Eine 
verborgene  Schicht  muS  so  viele  Neuronen  haben,  wie  die  Trainingsmenge 
Vektoren  hatf‘ .  Dies  mag  eine  hinreichende  Bedingung  sein,  ist  aber  zu  hart 
fiir  die  Wirklichkeit.  In  der  Tat  kann  ein  Netz  in  vielen  Fallen  mit  weniger 
Neuronen  eine  gegebene  Aufgabe  erfolgreich  losen  (siehe  [37]).  Werden  zu 
viele  Neuronen  fur  die  verborgene  Schicht  ausgewahlt,  kann  sich  einerseits 
der  Aufwand  fiir  das  Training  des  Netzes  erheblich  erhohen,  andererseits 
kann  es  ubertrainiert  werden  ( overfitting ).  Damit  nimmt  die  Generalisie- 
rungsfahigkeit  bezuglich  untrainierter  Muster  ab.  Deshalb  mufi  man  versu- 
chen,  so  wenige  Neuronen  wie  moglich  der  verborgenen  Schicht  zuzuordnen 
(vorausgesetzt,  dafi  das  Training  des  Netzes  konvergiert),  um  overfitting  zu 
vermeiden.  In  [28],  [37]  und  [72]  werden  einige  gute  praktische  Hinweise 
uber  die  Auswahl  der  Neuronenanzahl  in  der  verborgenen  Schicht  gegeben. 

2.1.3  Verbindung  zwischen  Schichten 

Ein  anderer  und  entscheidender  Faktor  fur  Netztopologien  ist  die  Art  der 
Verbindungen  zwischen  den  Schichten.  Sie  hat  einen  wichtigen  Einflufi  auf 
die  Netzdynamik.  Dies  kann  sowohl  die  Netzkapazitat  als  auch  die  Trai- 
ningsgeschwindigkeit  stark  beeinflussen,  insbesondere  dann,  wenn  das  NN 
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zur  Klassifikation  verwendet  wird.  Es  ist  in  den  Klassifikationsanwendungen 
aUgemein  iiblich,  daft  jeder  Klasse  ein  Ausgangsneuron  zugeordnet  wird. 

2. 1.3.1  Vollverbindung 

Unter  Vollverbindung  soil  hier  verstanden  werden,  daft  jedes  Neuron  ei- 
ner  Schicht  zu  jedem  Neuron  der  nachfolgenden  Schicht  (falls  es  eine  gibt) 
eine  Verbindung  hat.  Dies  ist  das  sogenannte  ACON  (All-Closs-in-One- 
Network).  Abbildung  2.2  zeigt  ein  Beispiel. 


Eingang  verborgene  Schicht  Ausgang 


Abb.  2.2:  Ein  4-9-3-Netz  mit  ACON-Struktur 

Wenn  die  Neuronenanzahl  in  der  Ausgangsschicht  groft  ist,  kann  das  ge- 
samte  Netz  damit  auch  sehr  groft  werden.  Es  wurde  in  der  Literatur  [30] 
darauf  hingewiesen,  dafi  die  Konvergenzrate  eines  ACON  bei  der  Erhohung 
der  Neuronenanzahl  des  Netzes  drastisch  sinkt.  So  ist  das  ACON  nur  fur 
Anwendungen  geeignet,  die  wenige  Neuronen  in  der  Ausgangsschicht  erfor- 
dem. 


2.1.  Netzaufbau 
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2. 1.3.2  Teilverbindung 

Wenn  die  von  den  Anwendungen  bestimmte  Neuronenanzahl  in  der  Aus- 
gangsschicht  sehr  grofc  ist,  dann  ist  das  sogenannte  OCON  ( One-Class-in- 
One-Network)  eine  geeignete  Struktur.  In  diesem  Fall  sind  die  Neuronen 
der  verborgenen  Schicht  und  der  Ausgangsschicht  nur  teilweise  miteinander 
verbunden  und  das  ganze  Netz  wird  entsprechend  in  mehrere  Teilnetze  par- 
titioniert.  Jedes  Teilnetz  besitzt  dabei  nur  wenige  Neuronen  (typischerweise 
3-5  Neuronen)  in  seiner  verborgenen  Schicht.  Abbildung  2.3  zeigt  dazu  ein 
Beispiel. 


Eingang  verborgene  Schicht  Ausgang 


Abb.  2.3:  Eine  OCON-Struktur  je  Teilnetz  mit  drei  Neuronen  in  der  ver¬ 
borgenen  Schicht 

In  dieser  Struktur  ist  jedes  Teilnetz  nur  fur  einen  Ausgang  (entsprechend  ei- 
ner  Klasse)  zustandig.  So  lafit  sich  die  Gewichtebelegung  des  Netzes  relativ 
leicht  durch  das  TVaining  erreichen.  Folglich  kann  man  sich  viel  Zeit  in  der 
Trainingsphase  ersparen  und  das  Netz  kann  damit  eine  bessere  Leistung  in 
der  Arbeitsphase  anbieten.  Aufierdem  konnte  diese  Struktur  eine  mogliche 
MaJSnahme  gegen  die  negative  Auswirkung  des  sogenannten  ^-Verfahrens 
bei  Netzen  in  stochastischer  Rechentechnik  darstellen  (siehe  [51]). 
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2 . 2  Ler  nalgorit  hmus 

Neben  der  Netztopologie  ist  das  Lemverfahren  selbst  eine  wichtige  Kompo- 
nente  neuronaler  Netze  bzw.  Verfahren.  Das  Lemverfahren  erlaubt  es,  daS 
ein  Netz  eine  gegebene  Aufgabe  selbstandig  aus  Beispielen  erlernt.  Allge- 
xnein  unterscheidet  man  zwei  Arten  von  Lernen  in  neuronalen  Netzen:  un- 
iiberwachtes  Lernen  ( unsupervised  learning)  und  uberwachtes  Lernen 
(supervised  learning).  In  dieser  Arbeit  wird  nur  auf  uberwachtes  Lernen 
eingegangen. 

Das  Ziel  eines  Lernverfahrens  ist  es,  die  Gewichte  des  Netzes  so  zu  belegen, 
dafi  das  Netz  nach  wiederholter  Presentation  der  Paare  von  Eingangs-  und 
Ausgangsmustern  dieselbe  Assoziation  sowohl  fur  Musterpaare  in  der  Trai- 
ningsmenge  als  auch  fur  unbekannte,  ahnliche  Eingaben  (Generalisierung) 
vornehmen  kann.  Beim  iiberwachten  Lernen  wird  das  Ziel  mit  Hilfe  eines  ex- 
ternen  »Lehrersu  erreicht,  der  dem  Netz  Eingangsmuster  aus  der  Trainings- 
menge  und  zugehorige  Ausgangsmuster  prasentiert.  Dies  bedeutet,  da£  dem 
Netz  immer  gleichzeitig  ein  vollstandig  spezifiziertes  Eingangsmuster  und 
ein  korrektes  bzw.  optimales  und  korrespondierendes  Ausgangsmuster  vor- 
liegt.  Neben  dem  „Lehrei*‘  existiert  auch  eine  Lemregel;  sie  entscheidet, 
wie  die  Gewichte  in  Bezug  auf  „Solf‘und  Jsfan  den  Netzausgangen  itera ir 
tiv  modifiziert  werden  sollen,  um  eine  optimale  Belegung  der  Gewichte  zu 
verwirklichen.  Viele  Lemregeln  wurden  von  verschiedenen  Wissenschaftlern 
unabhangig  voneinander  und  fiir  unterschiedliche  Anwendungen  entwickelt 
und  veroffentlicht.  Backpropagation  (generalized  delta  rule)  ist  die  bekann- 
teste  und  popularste  Lernregel  fur  mehrschichtige  vorwartsgerichtete  Netze. 


2.2.1  Warum  Backpropagation? 

Der  Algorithmus  backpropagation"  wurde  urspriinglich  von  Bryson  und  Ho 
[1]  1969  fiir  optimale  Kontrolle  entwickelt  und  1974  von  Werbos  [71]  als  eine 
Verallgemeinerung  von  statistischen  Eegressionsmethoden  wieder  entdeckt. 
Aber  erst  die  Arbeit  von  Rumelhart,  Hinton  und  Williams  [57]  machte  die- 
sen  Algorithmus  bekannt  und  popular.  Ihr  wesentlicher  Beitrag  war  es,  dafi 
die  Lemfehler  fiir  Neuronen  in  den  verborgenen  Schichten  (internal  repre¬ 
sentations)  durch  zuriickgefuhrte  Fehlermafee  aus  der  nachfolgenden  Schicht 
berechnet  werden  konnen. 

Der  BP- Algorithmus  ist  leicht  zu  verstehen  und  zu  implementieren.  Die 
Lokalitat  von  BP,  dafi  namlich  nur  lokale  Informationen  in  die  Kalkulation 
einbezogen  werden,  ist  eine  wichtige  Eigenschaft  fur  seinen  Einsatz  zum 
Training  neuronaler  Netze.  So  wird  die  Parallelitat  der  Arbeitsweise  von 
NNs  gewahrleistet. 


2.2.  LemaJgorithmus 
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Der  BP-Algorithmus  ist  eine  Erweiterung  des  LMS  ( least  mean  square)- 
Verfahrens,  dessen  Prinzip  und  Eigenschaften  in  der  mathematischen  Lite- 
ratur  bereits  umfassend  behandelt  wurden.  Per  Iteration  wird  das  Mini¬ 
mum  der  Fehlerfunktion  eines  bestimmten  Lernproblems  durch  Abstieg  in 
Gradientenrichtung  gesucht.  Dies  setzt  lediglich  voraus,  dafe  der  Gradient 
der  Fehlerfunktion  far  alle  Punkte  des  Gewichteraums  existieren  mu£,  d.h. 
die  partiellen  Ableitungen  der  Fehlerfunktion  nach  den  einzelnen  Gewichten 
mussen  fiber  all  definiert  sein. 

Wegen  seiner  Einfachheit,  der  guten  Anpassung  an  die  parallele  Arbeitswei- 
se  von  NNs  und  wegen  der  fundierten  mathematischen  Grundlage  hat  sich 
der  BP-Algorithmus  bei  seinem  Einsatz  in  unterschiedlichen  NN-Anwen- 
dungen  recht  erfolgreich  durchsetzen  konnen.  Aus  diesen  Griinden  bildet  er 
die  Grundlage  des  vorliegenden  stochastischen  Verfahrens. 

2.2.2  Lernen  mit  Backpropagation  (BP) 

2. 2. 2.1  Problemstellung 

Vorgegeben  ist  eine  Trainingsmenge  F,  die  aus  P  Vektorpaaren  von  n- 
dimensionalen  Eingabevektoren  und  m-dimensionalen  Ausgabevektoren  be- 
steht,  d.h. 

r  =  {(#*, fi)|t U  e  Rn, U  6  Rm;i  =  1, 2.., P}  (2.2) 

Die  Aufgabe  des  Trainings  ist  es,  das  Netz  durch  BP  lernen  zu  lassen,  jeden 
Vektor  Ui  in  den  entsprechenden  £*  so  genau  wie  moglich  abzubilden.  Um 
den  Lernfortschritt  und  damit  den  Naherungsgrad  des  Netzes  an  die  Soll- 
Abbildung  quantitativ  beschreiben  zu  konnen,  ist  ein  Maft  erforderlich.  Dies 
ist  der  sogenannte  Lernfehler  E,  der  als  eine  Funktion  von  den  Gewichten 
des  Netzes  betrachtet  werden  soli: 

p  1  Pm 

s=Eifi-^n2  =  lEE(%-^)2  (2-3) 

»=i  i=i  j= i 

Die  yi  sind  die  Ist-Ausgaben  des  Netzes  wahrend  des  Trainingsverlaufs.  Die 
Uj  und  yij  sind  j-te  Komponenten  der  entsprechenden  Vektoren  U  imd 
Offensichtlich  ist  der  Lernfehler  E  in  der  Gleichung  (2.3)  von  der  Dimension 
des  Netzausgangs  und  der  Anzahl  der  Trainingsmuster  abhangig.  Darum 
ist  es  zweckma£ig,  einen  durchschnittlichen  Lernfehler  zu  verwenden.  Er 
lautet  nach  [37]: 

1^*1  1  P  rn 

^ = p  E  ^iif*  -  m2 = ^  E  E  (*u  -  y»)2  (2-4) 

i-l  i=l  j= 1 

Die  Gleichung  (2.4)  ist  Grundlage  der  weiteren  Betrachtungen. 
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2. 2. 2.2  Arithmetische  Operationen 

Der  BP-AIgorithmus  kann  in  zwei  Phasen  unterteilt  werden:  Propagation- 
und  Backpropagation-Phase. 

Sei: 

N  Anzahl  der  Schichten  des  Netzes 

m  Anzahl  der  Neuronen  in  der  Schicht  /,  l  =  1, N 

Aktivierungsvektor  der  Schicht  l 
xt°]  =  Eingangsvektor  u  des  Netzes 

x?l  j-te  Komponente  von  Vektor 

at1]  gewichteter  Eingangsvektor  der  Schicht  l 

cty  j-te  Komponente  von  Vektor  a^ 

t  Soll-Vektor  aus  der  Trainingsmenge 

tj  j-te  Komponente  von  Vektor  t 

s(.)  Sigmoidfunktion,  s(x)  — 

p  Steilheit  der  Sigmoidfunktion 

s'(.)  Ableitung  der  Sigmoidfunktion,  s'(x)  =  ps(x)[  1  -  s(x)] 

w^(k)  von  der  k-ten  Iteration  gewonnenes  Gewicht  an  der  Verbindung  zwi- 
schen  Neuron  i  in  der  Schicht  l  —  l  und  Neuron  j  in  der  Schicht  l 

Aw W  (k)  Gewichtsanderung  fur  w^J  ( k )  bei  der  k-ten  Iteration. 

Dann  lafit  sich  fur  jedes  feste  Vektorpaar  (u,  t)  aus  der  Trainingsmenge  der 
ursprungliche  BP-Algorithmus  durch  folgende  Gleichungen  beschreiben: 

•  Propagation 

xf  =  s(af)  =  s(^2w^jx^~^)  l  =  1, j  =  (2.5) 

»=o 

•  Backpropagation 

w^(k  + 1)  =  wl‘j(k)  +  A<4'(fc  + 1)  (2.6) 


AaiW  (fc  + 1)  =  7^*?  j  =  — i  "I  *  =  •••>  "l-i  (2-7) 


2.2.  Lemalgorithmus 
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#  =  *'(“?)  E  4H‘1,«T1,(*)  i  =  l  =  N- 

i=0 

4^  =  “  *jWI)  *  ~  1>  ~’nN 


(2.8) 

(2.9) 


Der  Eingangsvektor  jedes  Neurons  wurde  schon  um  eine  Dimension  erwei- 
tert,  um  einen  Bias-Eingang  einzubeziehen.  So  entspricht  jeder  Index  0  in 
den  Summentermen  der  obigen  Gleichungen  der  Bias-Leitung. 

Das  7  in  der  Gleichung  (2.7)  wird  Lernrate  genannt,  weil  seine  Grofte  die 
Konvergenz  und  die  Lerngeschwindigkeit  des  BP-Algorithmus  bestimmt. 
Ein  Schichtendurchlauf  (z.B.  fiir  Schicht  l)  des  BP  erfordert  einen  Rechen- 
aufwand  von  O(n^)  Multiplikationen  und  Additionen  zweier  Werte,  dariiber 
hinaus  noch  0(ni)  nichtlineare  Uberfiihrungen,  reprasentiert  durch  Sigmoid- 
funktionen  und  ihre  Ableitungen.  Die  Subtraction  in  Gleichung  (2.9)  wird 
hier  im  Hinblick  auf  die  stochastische  Rechentechnik  als  Komplement  einer 
Addition  betrachtet. 


2.2. 2.3  Ablauf  des  Trainings 

Die  klare  Fassung  des  Trainingsablaufs  durch  geeignete  Begriffe  ist  zur  For- 
mulierung  einer  schematischen  Vorschrift  fur  den  Betrieb  eines  Netzes  in 
einem  umgebenden  System  wesenthch.  Aus  diesem  Grund  sollen  zuerst 
einige  Begriffe  definiert  werden: 

•  Eine  Presentation  eines  Musterpaares  bedeutet,  daft  ein  Eingabe- 
vektor  aus  der  Trainingsmenge  in  den  Eingang  des  Netzes  eingespeist 
und  mit  der  Gleichung  (2.5)  schichtenweise  berechnet  wird,  bis  ei¬ 
ne  Netzausgabe  (als  Ist- Wert  gekennzeichnet)  beim  Netzausgang  auf- 
taucht.  Nach  dem  Vergleich  zwischen  Soli-  und  Ist-Wert  wird  der 
entsprechende  Fehler  in  den  Ausgang  des  Netzes  eingefiihrt  und  die 
Gleichungen  (2.7)  bis  (2.9)  werden  schichtenweise  riickwarts  bis  zum 
Eingang  des  Netzes  durchgefuhrt. 

•  Eine  Epoche  beinhaltet  die  Prasentationen  aller  Musterpaare  aus 
der  Trainingsmenge  Oder  ihrer  Teilmenge. 

•  Online-Training  heiftt,  daft  die  Gewichtskorrekturen  nach  jeder  Pre¬ 
sentation  eines  Musterpaares  aus  der  Trainingsmenge  durchgefuhrt 
werden  (Gleichung  (2.6)). 
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•  Batch- Verfahren  bedeutet,  da£  die  Gewichtskorrekturen  (Gleichung 
(2.6))  nur  nach  jeder  Epoche  berechnet  werden.  In  diesem  Fall  ist 
Aw^J  (k  +  1)  in  der  Gleichung  eine  Akkumulation  der  Gewichtsande- 

rungen  A wty(k  +  l,r)  (r  ist  der  Index  fiir  Musterpaare  in  der  Trai- 
ningsmenge)  fur  jede  Presentation  in  der  Epoche,  d.h.: 

Au$(fc  +  1)  =  £>«$(*  +  l.r)  (2-10) 

r= 1 

Am  Anfang  mussen  alle  Gewichte  zufallig  oder  mit  gewissen  unterschiedli- 
chen  Werten  initialisiert  werden.  Die  Anfangswerte  haben  Einflufi  auf  die 
Konvergenz  und  die  Lemgeschwindigkeit  von  BP.  Danach  wird  dem  Netz 
wiederholt  solange  die  Trainingsmenge  prasentiert,  bis  eine  Stop-Bedingung 
erfiillt  wird.  Die  Stop-Bedingung  wird  nach  jeder  Epoche  getestet.  Eine 
haufig  verwendete  Bedingung  ist  die  Priifung,  ob  der  aktuelle  Fehler  E 
kleiner  als  eine  vorgegebene  Konstante  e  ist  oder  ob  die  Anzahl  der  schon 
durchgefiihrten  Epochen  einen  bestimmten  Wert  (auch  empirisch  vorgege- 
ben)  iiberschritten  hat. 

Die  Gewichtskorrekturen  (Gleichung  (2.6))  konnen  gemafi  Batch- Verfahren 
oder  Online-Training  durchgefiihrt  werden.  Beim  Batch— Verfahren  wird 
die  echte  Gradientenrichtung  der  Gesamtfehlerfunktion  fiir  die  Gewichts¬ 
korrekturen  verwendet.  Der  Rechenaufwand  ist  jedoch  groEer  als  beim  On- 
line-Training ,  bei  dem  die  fiir  die  Korrekturen  verwendete  Richtung  im 
Gewichteraum  aber  nicht  mit  der  Gradientenrichtung  ubereinstimmt.  Beim 
Online-Training  sollte  das  Musterpaar  zufallig  aus  der  Trainingsmenge  aus- 
gewahlt  werden,  damit  die  Korrekturrichtung  um  den  Gradienten  oszilliert 
und  der  maximal  absteigenden  Richtung  auf  der  Fehlerflache  im  Durch- 
schnitt  gefolgt  wird  [55]. 

2.2.3  Varianten  des  BP 

Ein  wesentlicher  Nachteil  des  BP  ist  es,  da£  das  Lemen  in  vielen  Fallen 
zu  langsam  ablauft  und/oder  zu  einem  lokalen  Minimum  konvergiert.  Die 
flachen  Taler,  die  durch  die  Verwendung  der  Sigmoide  entstehen,  fuhren  ins- 
besondere  bei  kleinen  Schrittgrofien  zu  einer  groEen  Anzahl  von  Iterationen 
des  Algorithmus.  Um  die  Konvergenzgeschwindigkeit  des  BP  zu  erhohen, 
sind  eine  Reihe  von  Varianten  des  BP  vorgeschlagen  worden,  die  in  zwei 
Gruppen  klassifiziert  werden  konnen.  In  der  ersten  Gruppe  sind  Varianten, 
welche  die  Delta-Regel  (Gleichung  (2.7))  beibehalten.  Die  entsprechenden 
Methoden  sind  in  [2],  [9],  [20],  [58]  und  [60]  detailliert  beschrieben.  Zu  der 


2.3 .  Umsetzung  in  stochastische  Rechentechnik 
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zweiten  Gruppe  gehoren  diejenigen,  die  statt  Gleichung  (2.7)  eine  andere 
Regel  nutzen,  um  die  Gewichte  zu  korrigieren.  Ein  Beispiel  ist  Quickprop, 
das  eine  Methode  zweiter  Ordnung  darstellt  [9].  Die  einfachste  und  popu- 
larste  Technik  ist  es,  einen  Impulsterm  in  die  Gleichung  (2.7)  einzufiihren. 
Dies  ist  das  sogenannte  Backpropagation  mit  Impulsterm.  Hierbei  ergibt 
sich  die  Gleichung  fur  die  Korrektur  der  Gewichte  zu: 

AwW  (k  +  1)  =  7 +  aAwW  (k)  j  =  1,  m  i  =  1, ...,  n/_i  (2.11) 

Dabei  wird  a,  das  empirisch  bestimmt  wird,  als  Momentum-Konstante 
bezeichnet.  Wegen  seiner  Einfachheit  und  Effizienz  wurde  Backpropagation 
mit  Impulsterm  als  Lem-Algorithmus  zum  Ausgangspunkt  des  nachfolgend 
beschriebenen  stochastischen  Verfahrens  gewahlt. 


2.3  Umsetzung  in  stochastische 
Rechentechnik 

Im  untersuchten  stochastischen  Verfahren  wird  eine  Art  von  Wertedarstel- 
lung  verwendet,  in  der  Bitstrome  aus  binaren  Pulsen  die  Informationstrager 
sind.  Daher  sollen  die  Codierung,  die  arithmetischen  Operationen  und  die 
Implementierung  der  Nichtlinearitat  auf  der  Bitstrom-Ebene  erlautert  wer¬ 
den,  wozu  einige  Begriffe  aus  [51]  herangezogen  werden  mtissen: 


Eine  Problemvariable  hat  einen  problemabhangigen  endlichen  Werte- 
bereich  sowie  eine  theoretisch  ideale  Genauigkeit. 

Eine  Maschinenvariable  M  kann  durch  Quantisierung  und  lineare  Trans¬ 
formation  aus  einer  Problemvariablen  gewonnen  werden.  Sie  liegt  aus- 
schlie£lich  im  Intervall  [—1,1]  und  hat  eine  bestimmte  Anzahl  binarer 
Stellen. 

Ein  Bitstrom  B  ist  eine  zufallige  und  jeweils  zu  alien  anderen  Bitstromen 
des  Netzes  stochastisch  unabhangige  Folge  von  Nullen  und  Einsen  auf 
einer  Leitung.  Dabei  bezeichnet  B  die  Negation  der  Folge  B.  Demzufolge 
gilt  die  Wahrscheinlichkeitsberechnung:  P(B  =  1)  +  P(B  —  1)  =  1. 


Die  Problemvariablen  existieren  nur  auSerhalb  des  Netzes.  Sie  werden  vor 
den  Netzeingangen  und  den  Sollwerteingangen  zu  Maschinenvariablen  trans- 
formiert  bzw.  normiert.  Innerhalb  des  Netzes  wird  nur  der  Begriff  Ma¬ 
schinenvariable  verwendet,  d.h.  der  grofitmogliche  Betrag  eines  Wertes  ist 
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Eins  und  alle  arithmetischen  Operationen  sowie  Ubertragungs-  und  Spei- 
cherfunktion  haben  den  Definitionsbereich  der  Maschinenvariablen  [—1,1]. 
Dieser  Wertebereich  wird  in  den  folgenden  Kapiteln  haufig  als  M-Bereich 
bezeichnet.  Hingegen  wird  das  Intervall  [0, 1]  W-Bereich  genannt,  welcher 
den  Wertebereich  der  Wahrscheinlichkeit  reprasentiert. 

2.3.1  Codierung  und  Decodierung 

Unter  Codierung  versteht  man  hier  die  Umsetzung  einer  Maschinenvaria¬ 
blen  in  eine  binare  Bitfolge,  deren  Wahrscheinlichkeit  fur  das  Erscheinen 
einer  Eins  nach  der  folgenden  Vorschrift  dem  Wert  der  Maschinenvariablen 
entspricht: 

P(B  =  1)  =  (2.12) 

Diese  Abbildung  wurde  von  Massen  [36]  als  bipolare  l-Leiter-Darstellung 
fur  vorzeichenbehaftete  Variablen  bezeichnet.  Wird  die  Nomenklatur  von 
[51]  ubernommen,  bei  der  die  Wahrscheinlichkeit  des  Auftretens  einer  Eins 
in  einem  Bitstrom  B  mit  Grofcbuchstaben  und  die  damit  verbundene  Mar 
schinenvariable  mit  dem  gleichen,  aber  kleinen  Buchstaben  bezeichnet  wird, 
so  erhalt  man:  . 

X  =  P(Bx  =  l)  =  iii  (2.13) 

x  —  2*  X  —  \  =  2*  P{BX  =  1)  —  1  (2.14) 

Die  Schaltung  zur  Schaifung  der  Ubergange  von  den  deterministischen  Si- 
gnaldarstellungen  in  die  entsprechenden  statistischen  soil  als  stochastischer 
Codierer  bezeichnet  werden.  Weil  es  sich  in  der  vorliegenden  Arbeit  nur 
um  die  digitale  Darstellung  des  Signals  handelt,  wird  hier  ein  sogenannter 
DSC,  Digital-Stochastik-Codierer  [36],  fiir  den  Codierungsvorgang  kon- 
struiert.  Die  Einzelheiten  fiir  den  Aufbau  eines  DSC  werden  im  folgenden 
Abschnitt  besprochen. 

2.3.1. 1  Implementierung 

In  der  Literatur  wurden  unterschiedliche  Schaltungen  fiir  die  Hardware- 
Implementierung  der  obigen  Codierung  vorgeschlagen.  Ganz  generell  kann 
sie  durch  Vergleich  der  Maschinenvariablen  mit  einer  genauso  langen  Zufalls- 
zahl  realisiert  werden.  Diese  Codierung  zeigt  Abbildung  2.4.  Die  notwendi- 
ge  Zufallszahl  fiir  die  Implementierung  mufi  genauso  viele  Stellen  aufweisen 
wie  die  Maschinenvariable. 
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Zufallszahl 


Abb.  2.4:  Codierung  mit  komparatorischer  Schaltung 

In  dieser  Arbeit  wird  eine  Schaltung  verwendet,  die  als  sequentielle  Codie¬ 
rung  bezeichnet  wird  und  fur  die  Codierung  einer  m  Bit  breiten  Maschinen- 
variablen  nur  eine  einzige  Zufallsfolge  benotigt  [51].  Abbildung  2.5  zeigt  die 
Struktur  dieser  Schaltung. 

Maschinenvariable 


Abb.  2.5:  Codierung  mit  nur  einer  binaren  Zufallsfolge  durcb  Speichern 
der  selektierten  Bits  der  Maschinenvariablen  (nach  [51]) 

Hier  wird  ausgenutzt,  dafi  die  Verbundwahrscheinlichkeiten  einer  idealen 
Zufallsquelle  der  binaren  Stellengewichtung  einer  sehr  langen  Zahl  entspre- 
chen.  Dies  erfordert,  da£  die  codierte  Maschinenvariable  wahrend  der  Co¬ 
dierung  stationar  sein  mufi. 

2. 3. 1.2  Stochastische  Streuung 

Die  Wiedergewinnung  der  Maschinenvariablen  aus  der  entsprechenden  Bit- 
folge  wird  als  Decodierung  bezeichnet.  Theoretisch  kann  nur  dann  die  Ma¬ 
schinenvariable  exakt  wiedergewonnen  werden,  wenn  eine  unendlich  lan- 
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ge  Stichprobe  aus  der  Bitfolge  entnommen  werden  konnte.  In  der  Praxis 
kann  man  jedoch  nur  aus  einer  endlich  langen  Stichprobe  einer  Bitfolge  eine 
Schatzung  fur  die  entsprechende  Maschinenvariable  vomehmen.  Solch  eine 
Schatzung  ist  um  so  besser,  je  grofier  der  Umfang  der  Stichprobe  ist.  Dies 
fiihrt  zu  einem  entsprechenden  Schatzungsfehler,  der  sogenannten  stocha- 
stischen  Streuung.  Die  blockweise  Summierung  und  gleitende  Mittelwert- 
bildung  (z.B.  im  ADDIE  in  [51])  bilden  zwei  bekannte  Schatzvorgange  [36]. 
Bei  der  Summierung  fur  die  Decodierung  einer  Bernoulli-Folge  laftt  sich 
die  Standardabweichung  des  aus  n  Stichproben  bestimmten  Schatzwertes 
X  mit  folgender  Gleichung  beschreiben: 


(2-15) 

Fur  die  gleitende  Mittelwertbildung  mit  einem  m-stufigen  Zahler  ergibt  sich 
die  Standardabweichung  zu: 


Die  obigen  Gleichungen  zeigen,  daft  fiir  die  Randwerte  (X  —  1  oder  X  =  0) 
keine  stochastische  Streuung  besteht  und  die  maximale  Streuung  c rma® 
der  Stelle  X  =  0.5  auftaucht,  namlich: 

<w  =  (2-17) 


Fur  das  Summierungsverfahren: 


1 

°max  ~  2\Jn 


Fiir  die  gleitende  Mittelwertbildung: 


1 

^  “  2  v^=n: 


(2.18) 


(2.19) 


Der  Schatzvorgang  benotigt  eine  bestimmte  Zeit.  Wenn  sich  die  Eingangs- 
information  des  Decodierers  innerhalb  dieser  Zeit  andert,  dann  taucht  ein 
sogenannter  Einschwingfehler  auf.  Er  aufiert  sich  normalerweise  in  einem 
zu  kleinen  Schatzwert  X. 
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2.3.2  Arithmetische  Operationen 

Die  wesentliche  Motivation,  stochastische  Rechenwerke  zur  Implementie- 
rung  eines  BP-Netzes  einzusetzen,  liegt  darin,  dafi  die  notwendigen  arithme- 
tischen  Operationen  in  BP  mit  einfachen  und  damit  wenig  platzaufwendigen 
Schaltungen  realisiert  werden  konnen.  Nachfolgend  wird  die  Implementie- 
rung  von  solchen  arithmetischen  Operationen  erlautert.  Bei  der  Diskussion 
werden  die  Vereinbarungen  fiir  Grok-  und  Kleinbuchstaben  wie  weiter  oben 
beschrieben  befolgt.  Fur  die  folgende  Herleitung  werden  Gleichungen  (2.13) 
und  (2.14)  mehrfach  verwendet. 


2.3.2. 1  Multiplikation 

Die  Multiplikation  zweier  Maschinenvariablen  kann  durch  ein  digitaltechni- 
sches  Aquivalenzglied  sehr  einfach  erfolgen. 

Zu  rechnen  ist  z  —  xy  im  Intervall  [—1,1].  Das  entsprechende  Z  im  Intervall 
[0, 1]  ist: 


zd*J 


P(BZ  =  1) 


z  +  1  _  xy  +  1  __  (2X  -  1)(2 Y  -  1)  +  1 
2  2  2 
=  2XY-X-Y  +  1 

=  xr  +  (i-x)(i-y) 

=  XY+XY 


=  P(BX  =  1  )P(By  =  1)  +  P(BX  =  1  )P(By  =  1) 

(2.20) 

Wenn  Bx  und  By  statistisch  unabhangig  sind,  dann  ergibt  sich  daraus: 


Z  =  P((BxABy)=:l)  +  P((BxABy)  =  l) 

=  P((BxABy)  =  nj(BxABy)  =  l) 

=  P({BxAByVBxABy)  =  l) 

=  P(BX  =  By)  (2.21) 

In  der  Herleitung  wurde  die  Tatsache,  dafi  (BxABy)  =  1  und  (BxABy)  =  1 
nie  gleichzeitig  auftreten,  implizit  verwendet. 

Damit  ist  gezeigt,  dafi  ein  Aquivalenzglied  zwei  stochastisch  unabhangige 
Bitstrome  — bezogen  auf  die  zugeordneten  Maschinenvariablen —  multipli- 
kativ  verknupft. 


2. 3.2. 2  Addition 

Bei  einer  Addition  zweier  oder  mehrerer  Maschinenvariablen  kann  das  Er- 
gebnis  der  Addition  den  Wertebereich  der  Maschinenvariablen  [-1, 1]  iiber- 
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schreiten.  Statt  arithmetischer  Addition  ist  deshalb  nur  eine  mittelnde  Ad¬ 
dition,  d.h.  Mittelwertbildung,  moglich,  die  zum  sogenannten  ^-Verfahren 
fiihrt  [51].  Die  sich  daraus  ergebenden  Nebenwirkungen  werden  im  folgen- 
den  Kapitel  ausfiihrlich  erlautert. 

Zu  rechnen  ist  z  =  \{x  +  y).  Nach  dem  Abbildungsgesetz  der  Codierung 
erhalt  man: 

z  +  1  _  [^(g  +  i/)  +  l] 

^iri  +  Ey1)  =  5(x+y) 

\(P(Bx  =  \)  +  P(By  =  \))  (2.22) 

In  der  Praxis  wird  eine  unabhangige  Hilfsfolge  Bh  mit  P(Bh  =  1)  =  0.5 
fur  die  Implementierung  obiger  Gleichung  benutzt.  Mit  dieser  Hilfsfolge 
wird  die  Entscheidung  getroffen,  von  welcher  Folge  (Bx  oder  By)  ein  Bit 
als  das  aktuelle  Bit  der  Ergebnisfolge  genommen  werden  soil.  In  diesem 
Fall  dient  die  Hilfsfolge  als  Schalter  von  Bx  und  By.  Die  entsprechende 
Digitalschaltung  wurde  in  [4]  als  Flatterglied  bezeichnet. 

Der  obige  Fall  kann  leicht  zu  einer  mittelnden  Addition  beliebig  vieler  Ma- 
schinenvariablen  verallgemeinert  werden.  Auf  Grund  der  Implementierung 
durch  Hilfsfolgen  wird  die  Anzahl  der  Summanden  jedoch  auf  Potenzen  von 
zwei  beschrankt.  Dadurch  ist  die  Anzahl  der  Eingange  jedes  Neurons  im 
vorliegenden  Verfahren  auch  auf  Potenzen  von  zwei  beschrankt. 

2. 3. 2. 3  Subtraktion 

Beim  BP-Algorithmus  wird  nur  am  Netzausgang  eine  Subtraktion  zweier 
Maschinenvariablen  fiir  die  Ermittlung  des  Fehlers  zwischen  Soli-  und  1st— 
Werten  benotigt.  Die  Subtraktion  auf  der  Bitstrom-Ebene  ist  ebenfalls 
durch  Mittelung  moglich.  Die  folgende  Herleitung  zeigt,  dafi  die  Subtraktion 
durch  eine  mittelnde  Addition  zwischen  dem  Minuend  und  der  Negation  des 
Subtrahenden  auf  der  Bitstrom-Ebene  implementiert  werden  kann. 

Wenn  der  Lernfehler  definiert  wird  als 

1  p  -Pm 

S  =  11*1  -  ail2  «  j  E  5>  -  (2.23) 

1  i=l  i=l  i=i 

dann  ergibt  der  Unterschied  zwischen  Gleichungen  (2.3)  und  (2.23)  nur  einen 
Faktor  der  keinen  Einflufi  auf  die  Minimumposition  un  Gewichtsraum 


Z  =  P(Bz  =  1)  = 
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hat.  Es  kann  leicht  hergeleitet  werden,  dafi  die  Gleichung  (2.9)  im  traditio- 
nellen  BP-Algorithmus  zum  Folgenden  umformuliert  werden  kann: 

4^  =  j  =  1, nN  (2.24) 

Dadurch  ist  die  Subtraktion  am  Netzausgang  schon  richtig  normiert.  Unsere 
Aufgabe  ist  nun,  z  =  \(x-y)  zu  berechnen.  Das  entsprechende  Aquivalent 
im  Intervall  [0, 1]  lafit  sich  folgendermafcen  gewinnen: 


P(BZ  =  1)  d=f  Z 


z  +  1  _  \(x-y)  +  1 


2 

X  +  l-Y 
2 


2 

\(X  +  Y) 


±[P(BX  =  l)  +  P(By  =  l)} 


(2.25) 


Damit  ist  gezeigt,  daft  zur  Fehlerberechnung  am  Netzausgang  die  mittelnde 
Addition  der  entsprechenden  Bitstrome  und  deren  Komplement  herangezo- 
gen  werden  darf. 


2.3.3  Die  nichtlineare  Uberfiihrungsfunktion 

Die  nichtlineare  Uberfiihrungsfunktion  und  ihre  Ableitung  sind  Kemteile  ei- 
nes  Neurons  in  einem  BP-Netz.  Das  Gradientenabstiegsverfahren  verlangt 
von  der  Uberfiihrungsfunktion  nur,  da£  sie  streng  monoton  steigend  ist  und 
sich  asymptotisch  den  Grenzwerten  0  und  1  nahert.  Warum  die  Sigmoid- 
funktion  fiir  den  BP-Algorithmus  genommen  wurde,  liegt  darin  begriindet, 
dafi  sie  sowohl  die  obigen  Bedingimgen  erfiillt  als  auch  andere  gute  Eigen- 
schaften  (z.B.  Einfachheit  des  Berechnens  ihrer  Ableitung)  besitzt.  Jedoch 
ist  ihre  exakte  Implementierung  durch  stochastische  Rechenwerke  kaum 
moglich.  Die  Losung  des  Problems  besteht  darin,  eine  sigmoid-ahnliche 
Funktion  zu  implementieren,  die  die  Bedingungen  des  Gradientenabstiegs- 
verfahrens  erfiillt  und  leicht  mit  digitalen  Schaltungen  aufgebaut  werden 
kann.  Riemschneider  [51]  entwickelte  eine  sogenannte  Squashfunktion,  die 
eine  S-formig  gekriimmte,  monoton  steigende  Kennlinie  aufweist  und  vor 
allem  digitaltechnisch  einfach  herzustellen  ist.  Die  Steilheit  der  Kennli¬ 
nie  kann  durch  einen  Parameter  (die  sogenannte  Runlange)  n  eingestellt 
werden.  Diese  Squashfunktion  la£t  sich  im  Bereich  der  Wahrscheinlich- 
keit  durch  folgende  Gleichung  beschreiben,  die  einer  gebrochenen  rationalen 
Funktion  entspricht: 


Y(Xyn)  = 


Xn(l-X)((l~X)”-l) 

(1  -  X)n(Xn  -X)  +  X»(X  -  1) 


(2.26) 
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Die  Abbildung  2.6  zeigt  die  Kennlinien  der  Squashfunktion  mit  unterschied- 
lichen  Runlangen.  Sie  weist  eine  gute  Anpassung  der  Sigmoidfanktion  im 
Intervall  [—1,1]  auf. 


Abb.  2.6:  Kennlinien  der  Squashfunktion  mit  unterschiedlichen  Runlangen 

Realisiert  wurde  diese  Funktion  mit  zwei  verbundenen  sogenannten  Runlan- 
genakzeptoren,  die  sich  mit  Hilfe  einer  Klasse  von  stochastischen  Automaten 
beschreiben  lassen.  Die  Squashfunktion  bildet  die  Uberfuhrungsfunktion 
dieses  Automaten.  Das  einschlagige  Zustandsiibergangsdiagramm  fur  den 
Automaten  wird  in  Abbildung  2.7  dargestellt. 

Es  kann  als  Anleitung  zum  Entwurf  des  umsetzenden  Schaltwerks  dienen. 
Die  Abbildung  2.8  stellt  die  Ergebnisse  einer  taktgenauen  Software-Simula- 
tion  fiir  den  Automaten  dar.  In  der  Darstellung  wurden  1000  Punkte  mit 
gleichem  Abstand  im  Intervall  [-1,1]  abgetastet  und  zu  je  einer  Bitfolge 
codiert,  und  die  Ausgaben  der  Automaten  mit  unterschiedlichen  Werten 
von  n  wurden  dann  in  Blocken  von  1000  Bits  decodiert.  Fiir  jeden  Punkt 
auf  der  Achse  des  Eingangssignals  wird  der  gleiche  Vorgang  dabei  sechs  Mai 
wiederholt,  und  alle  sechs  Ausgabewerte  der  S-Funktion  werden  dann  ge- 
mittelt  und  als  ein  Punkt  in  der  Kurve  gezeichnet.  Je  grower  der  Wert  n 
ist,  um  so  steiler  ist  die  Funktion,  um  so  grofier  aber  auch  die  stochastische 
Streuung,  insbesondere  in  der  NeLhe  des  Ursprungs.  Die  negativen  Auswir- 
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Abb.  2.7:  Zustandsiibergangsdiagramm  der  Squashfunktion 


kungen  solch  einer  gr often  Streuung  in  der  Nahe  des  Ursprungs  werden  im 
nachsten  Kapitel  besprochen. 

Fiir  die  Lernphase  des  BP-Algorithmus  wird  die  erste  Ableitung  der  nicht- 
linearen  Funktion  benotigt.  Dafiir  wird  hier  ebenfalls  ein  stochastischer  Au¬ 
tomat  verwendet,  dessen  Uberfuhrungsfimktion  die  notwendige  Ableitung 
annahert.  Diese  Funktion  ist  ebenfalls  eine  gebrochene  rationale  Funktion 
und  nie  negativ  im  Intervall  [-1,1].  Sie  wurde  in  [51]  als  Bogenfunktion 
bezeichnet  (B-Funktion  als  Kurzform),  weil  sie  bogenformig  ist.  Die  B- 
Funktion  laftt  sich  im  Wahrscheinlichkeitsraum  folgendermaften  ausdriicken: 


Y(X,n)  = 


-(I  -  X)n+1  -  Xn+1  +  2(X2  -  X  + 1) 
2(X 2  -  X  + 1) 


(2.27) 


Der  theoretische  Verlauf  der  Kennlinie  der  B-Funktion  mit  unterschiedli- 
chen  Werten  von  n  wird  in  der  Abbildung  2.9  gezeigt  und  die  experimentel- 
len  Ergebnisse  per  taktgenauer  Software-Simulation  in  der  Abbildimg  2.10. 
Da  die  B-Funktion  nicht  die  ideale  Ableitvmg  der  Squashfunktion  ist,  sol- 
len  die  moglichen  Auswirkungen  dieses  Unterschieds  auf  die  Konvergenz  des 
Verfahrens  spater  xmtersucht  und  diskutiert  werden. 
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Eingangsgrofte 


BlockgrofJe  fur  die  Decodierung:  1000  Bit 
Anzahl  der  Versuche  fur  jeden  reellen  Wert:  6 


Abb .  2.8:  Verlaufder  Squasbfunktion  m it  unterschiedlichen  Runlangen  bei 
taktgenauer  Software-Simulation 


Die  zwei  obigen  Nichtlinearitaten  bilden  den  Kern  der  Neuronen,  welche 
die  Informationen  sowohl  in  der  Lernphase  als  auch  in  der  Arbeitsphase 
verarbeiten.  Zum  Speichern  der  zu  verarbeitenden  Informationen  sind  spei- 
chernde  Glieder  erforderlich,  welche  die  Rolle  der  Gewichte  in  einem  BP- 
Netz  spielen  sollen.  Wie  solche  Glieder  durch  stochastische  Rechentechnik 
implementiert  werden  und  was  bei  der  Implementierung  fur  die  Konvergenz- 
eigenschaften  des  Netzes  zu  beachten  ist,  wird  im  kommenden  Kapitel  de- 
tailliert  erlautert. 
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Abb.  2.9:  Kennlinien  der  B-Funktion  mit  unterschiedlichen  Runlangen 


Eingangsgrofle 

Abb.  2.10:  Der  per  taktgenauer  Software-Simulation  ermittelte  Verlauf 
der  B-Funktion  mit  unterschiedlichen  Runlangen 


3  Parameterwahl  und  Lernverhalten 


Die  Parameterwahl  ist  fiir  jeden  Lernalgorithmus  sehr  wichtig  und  spielt 
haufig  sogar  die  entscheidende  Rolle  fur  die  Konvergenz  des  Lemvorgangs. 
Bedauerlicherweise  ist  sie  aber  meistens  von  den  zu  losenden  Problemstel- 
lungen  abhangig.  Uber  dieses  Thema  wurde  in  der  Literatur  oft  in  Ver- 
bindung  mit  konkreten  Beispielen  gesprochen.  Eine  allgemeine  Regel,  die 
fiir  alle  Falle  gilt,  konnte  bisher  nicht  gegeben  werden,  obwohl  ein  kon- 
ventioneller  BP-Algorithmus  mit  Impulsterm  nur  zwei  Parameter  besitzt, 
Lemrate  7  und  Momentum-Konstante  oc,  und  beide  Parameter  voneinander 
unabhangig  sind.  In  dem  vorgeschlagenen  stochastischen  Verfahren  gibt  es 
noch  mehr  Parameter  als  im  konventionellen  BP-Algorithmus.  Im  Gegen- 
satz  zu  Lernrate  und  Momentum-Konstante  im  konventionellen  Fall  haben 
die  Parameter  gegenseitigen  Einflufi  aufeinander,  weil  sie  die  Genauigkeit 
der  Gewichtespeicherung  und  die  GrolSe  der  stochastischen  Streuung  be- 
einflussen  konnen.  Dies  macht  die  Parameterwahl  fur  das  Training  noch 
komplizierter.  Aus  diesem  Grund  ist  eine  Untersuchung  zur  Strategie  und 
Methode  der  Parameterwahl  notwendig. 

In  diesem  Kapitel  wird  zuerst  der  Mechanismus  zur  Speicherung  und  Modi- 
fikation  der  Gewichte  erlautert  und  danach  eine  1:1  Abbildung  zum  konven¬ 
tionellen  BP-Algorithmus  hergestellt,  urn  den  Zusammenhang  zwischen  den 
Parametern  des  stochastischen  Verfahrens  und  denen  des  konventionellen 
BP-Algorithmus  zu  verdeutlichen.  Dadurch  konnen  die  aus  der  Literatur 
bekannten  Ergebnisse  fiir  die  Wahl  der  Parameter  im  konventionellen  BP- 
Algorithmus  als  Referenz  Oder  Hinweise  fiir  den  stochastischen  Fall  dienen. 
Anschlieftend  werden  die  Strategie  und  zu  beachtende  Gesichtspunkte  bei 
der  Auswahl  jedes  einzelnen  Trainingsparameters  besprochen. 


3.1  Gewichte 


In  einem  BP-Netz  sollen  Gewichte  in  der  Lemphase  allmahlich  modifiziert 
werden,  um  eine  optimale  Wertebelegung  zu  garantieren.  Danach  miissen 
die  gelernten  Gewichte  fiir  die  Arbeitsphase  mit  ausreichender  Genauigkeit 
gespeichert  werden.  Dazu  sind  speichemde  Glieder  erforderlich,  welche  die 
obigen  Aufgaben  iibernehmen. 
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3.1.1  INDIE-Glied 

Wenn  die  beiden  Seiten  der  Gleichung  (2.7)  liber  die  Zeit  im  Intervall  [£0,  h] 
integriert  werden,  erhalt  man: 

wfjih)  -  wW(to)  =  [  dr  j  =  i  =  1,  i  (3.1) 

J  Jto 

Diese  Gleichung  entspricht  einer  gesamten  Gewichtsanderung  liber  das  In¬ 
tervall  [t0,  ti]-  Das  integrative  Glied  der  stochastischen  Rechentechnik  (das 
sogenannte  INDIE)  [36]  kann  der  Aufgabe  gerecht  werden.  Abbildung  3.1 
zeigt  das  Blockschema  eines  INDIE. 
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Abb.  3.1:  Blockschema  eines  INDIE 

Der  m-stufige  Zahler  ist  fur  das  Speichem  und  die  Modifikation  der  Ge- 
wichte  zustandig.  Er  andert  sich  bei  jedem  Takt,  indem  er  beim  Erscheinen 
einer  Eins  bzw.  Null  vorwarts  bzw.  riickwarts  zahlt.  Um  den  Uber-  und 
Unterlauf  des  Zahlers  zu  vermeiden,  ist  ein  Mechanismus  zur  Umlaufsperre 
integriert.  Dadurch  kann  die  Gewichtsmodifikation  iiber  einen  langen  Zeit- 
raum  verfalscht  werden.  Diese  Nebenwirkung  auf  die  Konvergenz  des  Netz- 
trainings  wird  in  den  folgenden  Abschnitten  diskutiert.  Die  Zahlerlange  m 
bestimmt  die  Genauigkeit  der  Representation  der  Gewichte  und  den  Lera- 
schritt  des  Trainings.  Demnach  gehort  sie  zu  einem  der  zu  untersuchenden 
Trainingsparameter.  Sei  X  die  Wahrscheinlichkeit  fiir  das  Auftreten  einer 
Eins  in  der  Eingangsfolge  des  INDIE  und  innerhalb  der  Periode  von  N  Tak- 
ten  stationar,  dann  lafit  sich  der  aktuelle  Zahlerstand  iz  nach  dem  Ablauf 
der  N  Takte  so  beschreiben: 

iz  =  iz0  +  (2X-l)*N  (3.2) 

Hier  ist  izQ  der  alte  Zahlerstand  vor  den  N  Takten  und  wegen  der  Umlauf- 
sperren  gilt  folgende  Ungleichung  fur  iz$: 

0  <  iz0  +  (2X  -  1)  *  N  <  2m  -  1.  (3.3) 

Das  aktuell  im  INDIE  abgespeicherte  Gewicht  kann  im  W-Bereich  wie  folgt 
abgeschatzt  werden: 

iz 

2m  -  1 


W  = 


(3.4) 


3.1.  Gewichte 
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3.1.2  ADDIE-Glied 

Im  konventionellen  BP-Algorithmus  mit  Impulsterm  ist  die  aktuelle  Ge- 
wichtsanderung  eine  gleitende  Mittelwertbildung  zwischen  der  Multiplikati- 
on  der  Fehler  mit  der  Aktivitat  des  vorhergehenden  Neurons  und  den  bis- 
herigen  Gewichtsanderungen  von  vorherigen  Lernschritten  (siehe  Gleichung 
(2.11)).  Aus  dieser  Sicht  ist  die  Speicherung  der  alten  Gewichtsanderungen 
und  die  Erzeugung  eines  Bitstroms  fiir  die  Gewichtsanderung  erforderlich. 
Dafur  ist  das  sogenannte  adaptive  Glied  (ADDIE  als  Abkurzung  in  [36]) 
geeignet.  Das  ADDIE  besteht  ebenfalls  aus  einem  Binarzahler  mit  Umlauf- 
sperre  und  einem  DS'-Codierer.  Zusatzlich  beinhaltet  es  eine  Rfickkopp- 
lung,  welche  die  Ausgangsbitfolge  wieder  auf  seinen  Eingang  zuruckfuhrt. 
Abbildung  3.2  zeigt  das  Blockschema  eines  ADDIE  mit  einem  n-stufigen 
Zahler. 


Abb.  3.2:  Blockschema  eines  ADDIE  mit  einem  n-stuBgen  Zahler 

Der  Zahlerstand  des  n-stufigen  Zahlers  wird  ebenfalls  in  einen  Bitstrom  co- 
diert,  der  sowohl  als  Ausgang  fur  die  weitere  Verarbeitung  bereitsteht  als 
auch  an  den  eigenen  Eingang  gefuhrt  wird.  Dieser  zurfickgeffihrte  Bitstrom 
dient  dazu,  den  Zahlerstand  zu  erniedrigen,  wenn  dort  eine  Eins  anliegt 
Liegen  am  Eingang  und  Ausgang  gleiche  Werte  an,  so  wird  der  Zahlerstand 
nicht  verandert.  Wird  ein  stationarer  Wert  in  eine  Eingangsbitfolge  co- 
diert,  stellt  sich  nach  langer  Beobachtung  ein  Gleichgewichtszustand  ein, 
d.h.  die  Wahrscheinlichkeit  des  Auftretens  einer  Eins  ist  fiir  die  Eingangs- 
und  Ausgangsfolgen  gleich.  Dieser  Wahrscheinlichkeit  entspricht  der  durch 
den  maximalen  Wert  (2”  —  1)  geteilte  Zahlerstand.  Deswegen  wird  das  AD¬ 
DIE  in  [36]  auch  als  gleitender  Decodierer  bezeichnet.  Aus  der  Sicht  der 
Nachrichtentechnik  ist  ein  ADDIE  ein  digitales  Tiefpafcfilter  mit  exponen- 
tieller  Stofiantwort. 

Im  vorliegenden  Fall  ist  der  Gleichgewichtszustand  des  ADDIE  wahrend  des 
Trainings  von  geringer  Bedeutung.  Stattdessen  wird  der  Einschwingvorgang 
ausgenutzt.  Sei  X  die  Wahrscheinlichkeit  der  Eingangsfolge  und  azQ  der  alte 
Zahlerstand  des  ADDIE,  dann  ergibt  sich  der  aktuelle  Zahlerstand  az  fiber 
eine  Periode  von  N  Takten  mit  der  Taktperiode  tc  (siehe  [36]): 

az(N*tc)  =  X(2n-l)(l-e-x)  +  az0e-x 
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3.  Parameterwahl  und  Lemverhalten 


X 


VtCA ’ 


(3.5) 


Nach  Massen  [36]  wird  tCA  die  Taktfrequenz  genannt,  mit  welcher  der  Zah- 
lerstand  fiir  die  Decodierung  eingelesen  wird.  Hier  dient  das  ADDIE  nicht 
als  Decodierer,  sondem  als  Speicherglied  fiir  die  Gewichtsanderung;  das 
Verhaltnis  zwischen  tc  und  tCA  spielt  in  diesem  Fall  folglich  keine  Rolle1. 
Deshalb  wird  in  der  folgenden  Diskussion  der  Einfachheit  halber  tc  =  tcA 
angenommen. 

Wenn  der  Zahlerstand  durch  den  maximalen  Wert  des  Zahlers  geteilt  wird, 
ergibt  sich  die  entsprechende  Abschatzung  der  Wahrscheinlichkeit: 


Y  d=f  — — r  =  X(l  -  e"A)  4-  Y0e~x  (3.6) 

“A 

Die  Zahlerlange  n  (genauer  gesagt  die  Anzahl  der  Binarstellen  des  Zahlers) 
bestimmt  sowohl  die  Genauigkeit  der  darin  gespeicherten  Gewichtsanderung 
als  auch  den  Anted  der  alten  Gewichtsanderung  fiir  die  aktuelle  Gewichts- 
modifikation  bei  einem  Lernschritt.  Demnach  ist  sie  auch  ein  wesentlicher 
Parameter  fur  den  Trainingsvorgang. 


3.1.3  Synapsenelement 

Ein  Synapsenelement  besteht  aus  ADDIE  und  INDIE.  Es  bildet  Verbindun- 
gen  zwischen  den  Neuronenschichten.  Das  Synapsenelement  dient  dazu,  dafi 
Multiplikationen  zwischen  Gewicht,  Neuronaktivitat  und  zuruckgefuhrtem 
Fehler  und  Gewichtsanderung  auf  der  Bitstrom-Ebene  berechnet  werden, 
und  daft  ein  Gewicht  gespeichert  und  wahrend  der  Lernphase  modifiziert 
wird.  Daher  ist  es  fiir  das  On-chip-leaming  ein  wesentliches  Kemstiick  des 
Neurochips,  das  einen  grolSen  Teil  der  Chipflache  in  Anspruch  nimmt.  Die 
Abbildung  3.3  zeigt  den  Aufbau  eines  Synapsenelements  in  seinen  wichtig- 
sten  Einzelheiten. 


3.2  Das  Verhaltnis  zum  konventionellen 
BP-Algorithmus 

In  diesem  Abschnitt  wird  eine  l:l-Abbildung  zwischen  dem  konventionellen 
BP-Verfahren  und  dem  auf  stochastischer  Technik  beruhenden  Verfahren 
hergestellt,  urn  daraus  Erkenntnisse  dariiber  zu  gewinnen,  wie  und  wieweit 


1Bei  der  Decodierung  kann  eine  Verfalschung  der  Wahrscheinlichkeit  bei  ungunstigem 
Verhaltnis  von  tc  und  tcA  auftreten  [36] 


3.2.  Das  Verhaltnis  zum  konventionellen  BP-Algorithmus 
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Fehlereingang  Aktivitatseingang 


Abb.  3.3:  Aufbau  ernes  Synapsenelements 


die  neu  auftauchenden  Trainingsparameter  (z.B  ADDIE-  und  INDIE-Lange 
usw.)  den  Trainingsvorgang  steuern  konnen.  Da  Strategien  zur  Auswahl 
der  Lernrate  7  und  der  Momentum-Konstante  a  im  konventionellen  BP- 
Algorithmus  der  Literatur  entnommen  werden  konnen  und  ihr  Einflu£  auf 
die  Konvergenz  des  Trainings  gut  untersucht  ist,  konnen  aus  der  Herstellung 
eines  Zusammenhangs  zwischen  dem  konventionellen  BP-Algorithmus  und 
dem  hier  vorgestellten  Verfahren  Riickschliisse  auf  die  Parameterwahl  und 
deren  Wirkung  auf  letzteres  gezogen  werden. 

3.2.1  Eine  1:1— Abbildung 

In  der  folgenden  Herleitung  wird  nur  das  Online-Training  betrachtet  und 
die  Presentation  eines  Musterpaars  soil  N  Takte  dauern.  Auch  werden  der 
Klarheit  und  Einfachheit  halber  alle  Ober-  und  Unterindizes  weggelassen. 
So  ergibt  sich  die  Gewichtsanderung  je  Lernschritt  im  konventionellen  BP- 
Algorithmus  mit  Impulsterm: 

A  w(k  +  1)  =  7  Sx  4-  a  A  w(k)  (3.7) 

Wie  in  der  Abbildung  3.3  gezeigt,  ist  der  Eingang  des  ADDIE  das  Resultat 
der  Multiplikation  von  S  und  o,  namlich  x  =  So.  Nach  der  Nomenklatur 
im  vorigen  Kapitel  ergibt  sich  die  Wahrscheinlichkeit  der  Eingangsfolge  zu 
X  =  |(x  +  1).  Nach  der  Gleichung  (3.6)  lafit  sich  nun  die  Ausgabe  Y  des 
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ADDIE,  welche  wiederum  der  Eingabe  des  folgenden  INDIE  entspricht,  im 
W-Bereich  wie  folgt  beschreiben2: 


Y  =  i  (So  +  1)(1  -  e~A)  +  Y0e~x 


(3.8) 


Nach  der  Gleichung  (3.4)  gewinnt  man  das  neue  Gewicht  im  W-Bereich  fiir 
den  aktuellen  Lernschritt: 


iz(k)  +  (2 Y  -  1  )N 
~  2m-l 

=  w(jfe)  +  (2y-i) 


N 


2m  - 1 


(3.9) 


W{k)  ist  der  Gewichtswert  des  k-ten  Lernschritts.  Aus  der  Gleichung  (3.9) 
ist  die  Gewichtsanderung  zwischen  Lernschritt  k  und  fc+1  deutlich  zu  sehen, 
d.h.: 


AW(k  +  1)  =f  W(k  +  1)-W(k) 


(3.10) 


Nach  den  Gleichungen  (3.8)  und  (3.10)  erhalt  man  die  entsprechende  Be- 
schreibung  im  M-Bereich: 

A  w(k  +  1)  =  w(k  +  1)  —  w(k) 

=  [2W  (A;  H- 1)  —  1]  —  [2W  (k)  —  1] 

=  2(W(k  +  l)-W{h)) 

=  2AW(k  + 1) 

N 

=  2(2Y-1): 


2m  - 1 


2  N 


2m_1-[M1-e-A)  +  (2Ko-l)e-A] 
-  e~X)So  +  e"AAiu(fc) 


(3-11) 


Im  Vergleich  mit  der  Gleichung  (3.7)  erhalt  man  die  folgenden  Gleichungen, 
welche  zum  Ausgangspunkt  fiir  die  weitere  Diskussion  genommen  werden 
konnen: 


a 


■V  CL _ 

—  e-A  =  e  an-1-i 


(3.12) 


2ohne  Berucksichtigung  von  Schatzfehlern 


3.2.  Das  Verhaltnis  zum  konventioneUen  BP-Algorithmus 
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7  = 


2  N 

2m  —  1 


(1 


-A)  = 


2  N 

2m  —  1 


(1“«) 


(3.13) 


3.2.2  Vorschlage  zur  Parameterwahl 

Die  obigen  Beziehungen  zwischen  den  Lemparametem  der  beiden  Verfahren 
geben  eine  Anregung  far  die  Auswahl  der  Lemparameter  des  stochastischen 
Verfahrens.  Aus  den  vorherigen  Gleichungen  sind  folgende  Schlusse  zu  zie- 
hen: 

•  Nicht  nur  durch  die  ADDIE-Lange  n  wird  die  Momentum-Konstante 
a  gesteuert,  wie  man  erwartet  hat,  sondern  auch  durch  die  Taktanzahl 
N.  Jedoch  hat  die  ADDEE-Lange  n  einen  grofteren  Einfluft  auf  die 
Steuerung  der  Momentum-Konstante  als  die  Taktanzahl  N ,  weil  der 
Term  2n  ein  exponentielles  Verhaltnis  zum  Term  n  hat.  Der  Wert, 
den  die  Momentum-Konstante  in  diesem  Fall  annehmen  kann,  liegt 
im  Intervall  [0, 1].  Je  grofter  n  ist,  desto  grower  ist  das  Momentum. 
Bei  N  ist  es  umgekehrt. 


•  Die  Grofte  der  Lernrate  7  ist  ebenfalls  durch  mehrere  Parameter  im 
stochastischen  Verfahren  steuerbar,  namlich  durch  die  INDIE-Lange 
m,  die  ADDIE-Lange  n  sowie  die  Taktanzahl  N.  Dabei  beeinflufit  die 
INDIE-Lange  m  die  Steuerung  der  Lernrate  starker  als  die  ubrigen 
Parameter. 


•  Die  beiden  Lemparameter  7  und  a  sind  nicht  mehr  unabhangig  von- 
einander  wie  im  konventioneUen  Fall.  Das  bedeutet,  da£  einige  in  der 
Literatur  vorgeschlagenen  Kombinationen  von  7  und  a  nicht  in  den 
stochastischen  Fall  iibemommen  werden  konnen,  weil  sie  die  Glei- 
chung  (3.13)  nicht  erfiiUen. 


•  Aus  Sicht  der  Steuerung  der  Lemschrittweite  ohne  Berucksichtigung 
der  stochastischen  Streuung  sind  die  INDIE-Lange  m  und  die  ADDIE- 
Lange  n,  welche  sich  nur  in  einem  begrenzten  Bereich  der  ganzen 
Zahlen  befinden,  die  entscheidenden  Parameter  fiir  die  Konvergenz 
des  Trainings.  Dadurch  konnte  eine  Strategie  bei  der  Suche  nach  den 
optimalen  Trainingsparametern  so  aussehen,  daft  der  Versuch  vorzugs- 
weise  mit  einer  niedrigen  festen  Taktanzahl  (z.B.  1000)  anfangen  soU- 
te,  um  damit  den  Suchvorgang  zu  beschleunigen. 
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3.3  Parameterwahl  bei  taktgenauer 
Bitstrom-Simulation 

Bei  der  taktgenauen  Bitstrom-Simulation  handelt  es  sich  um  eine  Software- 
Simulation,  welche  auf  der  Bitstrom— Ebene  die  in  der  Hardware  ablaufen- 
den  Vorgange  des  vorliegenden  Verfahrens  taktweise  simuliert.  Deshalb  ist 
es  sehr  zeitaufwendig,  die  Simulation  durclizufiihren,  was  als  Nachteil  ange- 
sehen  werden  mufi.  Vorteilhaft  ist  jedoch  die  Exaktheit  und  Hardwarenahe 
des  Verfahrens.  Dadurch  konnen  die  Konvergenzeigenschaften  des  Verfah¬ 
rens  realitatsnah  genug  und  besser  untersucht  werden. 

Die  Wahl  der  Parameter  ist  von  der  Aufgabenstellung  abhangig,  d.h.  fur  un- 
terschiedliche  Aufgaben  kann  es  vollig  unterschiedliche  Kombinationen  von 
Lernparametern  geben,  die  das  Training  zur  Konvergenz  fiihren  konnen.  In 
diesem  Abschnitt  wird  die  Empfindlichkeit  des  Trainings  auf  die  Wahl  der 
Parameter,  welche  fur  das  stochastische  Verfahren  relevant  sind,  durch  eine 
taktgenaue  Simulation  untersucht.  Dazu  ist  ein  Maft  erforderlich,  mit  dem 
die  Trainingsergebnisse  unter  den  verschiedenen  Parameterkombinationen 
verglichen  werden  konnen.  Die  Trainingszeit  ist  dafiir  ein  sinnvolles  Ma6, 
das  der  Anzahl  der  Epochen  von  Lernschritten  entspricht,  nach  denen  der 
Lernfehler  relativ  klein  und  innerhalb  einer  gewissen  Genauigkeit  akzep- 
tabel  ist.  Wegen  der  stochastischen  Eigenschaften  des  Verfahrens  soil  der 
gleiche  Trainingsvorgang  Nt  mal  wiederholt  und  eine  durchschmttliche  An¬ 
zahl  Ne  von  Epochen  iiber  NT  Trainingsvorgange  ermittelt  werden.  Fur  die 
Stopbedingung  des  Trainings  ist  ebenfalls  ein  durchschnittlicher  Lernfehler 
E  zu  ermitteln,  der  aus  dem  Lernfehler  E{  (siehe  Gleichimg  (2.4))  von  Np 
hintereinanderfolgenden  Epochen  geschatzt  werden  kann,  d.h.: 

!  Nr 

*  =  WF  X>  (3-14> 

Wenn  die  folgende  Bedingung  fur  eine  vorgegebene  Konstante  e 

E<e  (e  >  0)  (3.15) 

erfullt  wird,  dann  wird  angenommen,  dafi  das  Netz  mit  einer  gewissen  Ge¬ 
nauigkeit  die  Trainingsmenge  bereits  gelernt  hat.  Der  Trainingsvorgang 
kann  mit  Erfolg  abgeschlossen  werden.  Wenn  die  Ungleichung  (3.15)  nach 
Nn  Epochen  immer  noch  nicht  erfullt  werden  kann,  wird  der  Trainingsvor¬ 
gang  zwangslaufig  unterbrochen.  Das  Trainingsergebnis  wird  als  Mifierfolg 
gewertet. 

Um  den  Zeitaufwand  der  taktgenauen  Simulation  auf  der  Bitstrom-Ebene 
in  tragbaren  Grenzen  zu  halten,  werden  den  obigen  Konstanten  folgende 


3.3.  Parameterwahl  bei  taktgenauer  Bitstrom-Simulation 
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Werte  zugewiesen: 

e  —  0,1 
Nt  —  Np  =  8 
Nn  =  2000 


3.3.1  ADDIE-Lange 

Wie  in  3.1.2  gesagt,  entspricht  das  ADDIE  einem  gleitenden  Decodierer. 
Sein  Ausgang  nahert  sich  im  Lauf  der  Zeit  seinem  Eingang,  wenn  das  Ein- 
gangssignal  in  der  Zeit  stationar  ist.  Es  wird  hier  zunachst  untersucht,  wie- 
viel  Zeit  oder  genauer  gesagt,  wieviele  Takte  benotigt  werden,  um  sich  einem 
solchen  Gleichgewichtszustand  anzunahern,  d.h.  wie  grof>  die  Taktanzahl  N 
sein  mu£,  damit  folgende  Ungleichung  fur  eine  vorgegebene  Zahlerlange  n 
und  eine  kleine  positive  Konstante  e  erfiillt  wird: 


\Y-X\<e  (3.16) 

Durch  Hinzufiigen  der  Gleichung  (3.6)  in  die  obige  Ungleichung  ergibt  sich: 


Y-X 


Yq-X 


e 


-A 


<  e 


(3.17) 


Wenn  A  durch  Gleichung  (3.5)  ersetzt  wird,  erhalt  man  folgende  Unglei¬ 
chung: 

N  >  (2n_1  -  1)  In  (3.18) 

Die  Ungleichung  (3.18)  zeigt,  wie  viele  Takte  ein  ADDIE  als  Decodierer 
braucht,  bis  seine  Ausgabe  die  Eingangswahrscheinlichkeit  unter  vorgege- 
bener  Genauigkeit  annahert.  Im  Extremfall,  bei  dem  der  alte  Zahlerstand 
des  ADDIE  der  Wahrscheinlichkeit  Null  entspricht  und  die  zu  decodierende 
WahrscheinUchkeit  Eins  zutrifft,  sind  mindestens  56581  Takte  erforderlieh, 
bis  das  Ergebnis  eine  Genauigkeit  von  0,001  erreichen  kann,  wenn  z.B.  ein 
14-stufiger  Zahler  im  ADDIE  verwendet  wird.  Die  Zeit,  welche  das  ADDIE 
zum  Wechsel  vom  alten  Zustand  zum  neuen  Zustand  benotigt,  wird  hier  als 
Anlaufzeit  bezeichnet.  Die  Abbildung  3.4  zeigt  verschiedene  Falle  fur  diese 
Anlaufzeit  mit  unterschiedlichen  Zahlerlangen  des  ADDIE. 

Die  Abbildung  3.4  deutet  an:  Bei  kurzen  ADDIEs  stellt  das  ADDIE  einen 
Stochastik-Digital-Decodierer  dar  und  fur  lange  ADDIEs  wirkt  es  als  Mit- 
telwertbildner  der  zeitveranderlichen  Wahrscheinlichkeit  seiner  Eingangsfol- 
ge.  In  diesem  Fall  schwingt  sein  Ausgang  mit  einem  exponentiellen  Uber- 
gangsverlauf  auf  jeden  neuen  Mittelwert  ein.  Diese  Eigenschaft  des  ADDIE 
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Fall  1:  Anfangswert=0.0,  Zielwert-1.0  Fall  2:  Anfangswert=0.5,  Zielwert=1.0 


Abb .  3.4:  Simulationsergebnisse  zur  Anlaufzeit  des  ADDIE 


wird  hier  fur  die  Realisierung  des  Momentum  im  BP-Algorithmus  ausge- 
nutzt.  Aus  diesem  Grund  darf  das  ADDIE  nicht  zu  kurz  (kleiner  als  12) 
gewahlt  werden3.  Wenn  das  ADDIE  zu  kurz  ist,  dann  spielt  das  Momen¬ 
tum  keine  Rolle  mehr.  In  diesem  Fall  sollte  das  Training  ohne  ADDIE,  d.h. 
ohne  Momentum,  durchgefuhrt  werden,  um  mogliche  Nebenwirkungen  zu 
vermeiden  (z.B.  eine  niedrige  Genauigkeit  fur  die  Wertreprasentation). 

Die  folgenden  Abbildungen  aus  einigen  behandelten  Beispielen  zeigen  das 
Lernverhalten  des  Netzes  zu  den  unterschiedlichen  Werten  von  ADDIE- 
Langen.  Obwohl  die  Parameterwahl  von  Problemstellungen  abhangig  ist, 
konnen  die  Ergebnisse  aus  diesen  Beispielen  als  Leitfaden  oder  Strategic 
zur  Parameterwahl  fur  neue  Aufgabenstellungen  verwendet  werden.  In  den 
Abbildungen  reprasentiert  die  X-Achse  die  ADDIE-Lange  und  die  Y-Achse 
die  Durchschnittszyklen,  die  das  Training  bis  zur  Erfullung  der  Stopbedin- 
gung  benotigt.  Wenn  das  Training  nach  maximaler  Anzahl  von  Zyklen  die 
Stopbedingung  immer  noch  nicht  erfiillen  kann,  wird  das  Ergebnis  als  „Di- 
vergen2?‘  betrachtet.  Natiirlich  konnte  es  vorkommen,  dafi  die  maximale 
Anzahl  von  Zyklen  zu  klein  gewahlt  worden  ist.  So  sollten  hier  die  Anfuh- 
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rungsstriche  verstanden  werden,  daft  sich  nach  einer  gewissen  Anzahl  von 
Lernschritten  keine  Konvergenz  abzeidinet. 


Name 

Netztopologie 
Musteranzahl 
Takt  anzahl 
Maximale  Zyklen 
Stopbedingung 
RUN  /  RUNAB 


Aufgabe  1 
XOR 
2-2-1 
4 

1000 
2000 
e  =  0,15 
5/3 


Aufgabe  2 
4-Bit-Encoder 
4-2-4 
4 

1000 
2000 
e  =  0,15 
5/3 


© 

■6 


ADDIE-Zahlerlange  [Bit] 

Datenfilerfxomew.dat,  Netz:2-2-1,  Laufzeit=1 1 5420  Sekunden 
Takt=1000,  Max.  Zyklen=2000,  RUN=5,  RUNAB=3 


Abb .  3.5:  Empfindlichkeit  des  Trainings  bzgl.  ADDLE  bei  Aufgabe  1 

Wenn  eine  Trainingsmethode  sehr  sensibel  auf  ihre  Parameter  reagiert,  dann 
ist  die  Entscheidung  fiir  die  richtige  Parameterwahl  nicht  einfach  zu  treffen. 
Die  Abbildung  3.5  zeigt,  dafi  die  hier  diskutierte  stochastische  Methode 
nicht  sehr  empfindlich  auf  die  Lange  des  ADDIE  reagiert.  Dies  bedeu- 
tet,  da£  die  Auswahl  der  ADDIE-Lange  relativ  elastisch  ist.  Ob  die  beste 
ADDIE-Lange  gewahlt  wird,  bestimmt  nur  die  Geschwindigkeit  der  Konver¬ 
genz.  Je  einfacher  die  Aufgabe  ist,  desto  kleiner  ist  der  Einflufi  des  ADDIE 
auf  die  Konvergenz  des  Trainings,  sofern  das  ADDIE  nicht  zu  kurz  (kleiner 
als  12)  oder  zu  lang  (langer  als  24)  gewahlt  wird.  Die  folgende  Aufgabe  2 
ist  fiir  ein  MLP-Netz  noch  einfacher  zu  losen  als  das  XOR-Problem.  Sie 
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wird  in  der  Literatur  haufig  als  Benchmark  fur  das  Training  eines  MLP 
Netzes  aufgenommen.  Da  diese  Netztopologie  mehr  Ausgange  aufweist,  ist 
der  durchschnittUche  Lerafehler  groKer  als  in  der  Aufgabe  1.  So  kann  die 
Stopbedingung  e  -  0,1  nie  erfiillt  werden,  auch  wenn  das  Training  in  der  Tat 
schon  konvergiert  hat  und  das  Netz  ein  gutes  Ergebnis  bei  der  Test-Phase 
liefem  kann.  Aus  diesem  Grand  wird  die  Stopbedingung  auf  s  —  0,15  er- 
hoht.  Alle  unter  dieser  Bedingung  als  Jemfahi^'  bezeichneten  Netze  liefem 
gute  Ergebnisse  bei  der  Test-Phase.  Das  Ergebnis  von  Aufgabe  2  bestatigt 
die  Behauptung,  dag  die  Auswahl  des  ADDIE  bei  dieser  einfacheren  Auf- 
gabe  noch  beliebiger  als  zuvor  ist. 


Abb.  3.6:  EmpGndlichkeit  des  Trainings  bzgl.  ADDIE  bei  Aufgabe  2 

Die  Kurven  in  den  Abbildungen  3.5  und  3.6  wurden  mit  verschiedenen 
INDIE-Werten  erhalten.  Sie  deuten  auch  an,  dag  die  Auswahl  des  IN¬ 
DIE  eine  groEere  Rolle  spielt  als  die  des  ADDIE.  Im  folgenden  Abschnitt 
wird  die  Empfindlichkeit  der  Methode  bezuglich  der  Auslegung  des  INDIE 
weiter  untersucht. 

3.3.2  INDIE-Lange 

Die  Anzahl  der  Zahlerstellen  des  INDIE  ist  ein  entscheidender  Lempara- 
meter,  welcher  die  Konvergenz  des  auf  stochatischer  Technik  basierenden 
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Lemverfahrens  bestimmen  kann.  Dieser  Parameter  kann  folgendermafien 
den  Lemvorgang  stark  beeinflussen: 

•  Die  Grdfce  der  Lemrate  7  (siehe  Gleichung  (3.13))  wird  iiberwiegend 
von  diesem  Parameter  kontrolliert.  Wenn  sich  das  INDIE  um  1  Bit 
erhoht,  wird  die  Lemrate  7  quasi  halbiert.  Wegen  der  inharenten  und 
immer  bestehenden  stochastischen  Streuung  des  Verfahrens  darf  die 
Lernrate  7  nicht  zu  klein  sein,  sonst  wird  der  Lernvorgang  nicht  von 
dem  vorgegebenen  Algorithmus,  sondem  von  der  stochastischen  Streu¬ 
ung  gesteuert.  Um  dies  zu  vermeiden,  sollte  die  Lemrate  7  folgende 
Bedingung  erfullen4: 


1 

7  ^  <7 max  —  - 7=~ 

2VN 


(3.19) 


Wenn  7  durch  die  Gleichung  (3.13)  ersetzt  wird,  ergibt  sich  eine  Ober- 
grenze  fiir  die  Zahlerlange  m  des  INDIE: 


in  (41V  %/iV  (1  —  a)  —  1) 
m< - ta2 - ' 


(3.20) 


Wenn  keine  Momentum-Konstante  (a  =  0)  auftaucht  und  1000  Takte 
je  Presentation  ( N  —  1000)  vorgegeben  werden,  dann  mufi  die  Anzahl 
der  Zahlerstellen  des  INDIE  nach  der  Ungleichung  (3.20)  kleiner  als 
17  sein.  Sicher  ist  dies  eine  sehr  konservative  Obergrenze,  weil  die 
grofite  Streuung  in  der  Ungleichung  (3.19)  verwendet  wurde.  Aus 
diesem  Grund  kann  ein  Gleichheitszeichen  in  die  Ungleichung  (3.20) 
eingesetzt  werden,  d.h.: 


m  <  17  wenn  N  =  1000  und  ohne  Momentum  —  Konstante 

(3-21) 

Ahnlich  gilt  auch: 

m  <  20  wenn  N  =  4000  und  ohne  Momentum  —  Konstante 

(3.22) 

•  Die  Zahlerlange  des  INDIE  bestimmt  auch  die  Genauigkeit  eines  Ge- 
wichts,  welches  im  INDIE  gespeichert  wird.  Aus  dieser  Sicht  sollte 
das  INDIE  lang  genug  gewahlt  werden,  um  eine  gewisse  Genauigkeit 
zu  erreichen.  Der  BP-Algorithmus  verlangt  eine  hohe  Genauigkeit 
sowohl  beim  Speichern  als  auch  beim  Berechnen  der  Gewichte.  Es  ist 


4Hier  wird  die  mogliche  Vergrofierung  der  Streuung  durch  die  Nichtlinearitat  nicht  be- 
riicksichtigt. 
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kaum  vorstellbar,  dafi  die  Genauigkeit  fiir  die  Speicherung  der  Gewich- 
te  niedriger  als  0,01  ware.  So  mufi  m  folgende  Ungleichung  erfullen: 

m  >  6  (3.23) 

•  Wegen  der  Umlaufsperren  des  INDIE  kann  die  Gewichtsmodifikation, 
welche  wahrend  des  Trainings  stattfindet,  verfalscht  werden,  wenn  das 
INDIE  zu  kurz  gewahlt  wird.  Nun  wird  untersucht,  wann  solche  Ver- 
falschungen  vorkommen  konnen,  falls  die  Dauer  einer  Prasentation  N 
festgelegt  wird.  Die  Gewichtsmodifikation  iz  la£t  sich  folgendermafien 
ausdriicken: 


iz  = 


0  wenn  izo  +  (2X  -  1)  *  N  <  0 

2m  -  1  wenn  izo  +  ( 2X  -  1)  *  N  >  2m  —  1 

izn  -I-  (2X  —  1)  *  N  sonst 

(3.24) 


Der  Uberlauf  des  INDIE  kann  nur  vorkommen,  wenn  die  Wahrschein- 
lichkeit  seiner  Eingangsfolge  grofier  als  0,5  ist,  d.h.,  wenn  X  >  0,5, 
konnte  folgende  Situation  entstehen: 


izo  +  (2X  —  l)*N>2m  —  l  (3.25) 


Sei  X0  =  g Ir^r  das  alte  Gewicht,  welches  nach  der  letzten  Repra- 
sentation  im  INDIE  gespeichert  wird.  Dividieren  beider  Seiten  der 
Ungleichung  (3.25)  durch  2m  -  1  ergibt: 


2m  < 


N(2X-l) 

1-Xo 


(3.26) 


Die  Ungleichung  sagt  aus,  dafi  dann  ein  Uberlauf  eintritt,  wenn  die 
Lange  des  INDIE  diese  Ungleichung  erfullt.  Urn  den  Uberlauf  mog- 
lichst  zu  vermeiden,  sollte  das  INDIE  lang  genug  sein,  namhch: 


m  >  log2(^— v  ^  +  wenn  X  >  0,5  ^3'27^ 

Daraus  erhalt  man  fiir  das  INDIE  eine  Untergrenze,  welche  von  der 
Dauer  N  einer  Prasentation,  der  Wahrscheinlichkeit  X  seiner  Ein¬ 
gangsfolge  und  dem  alten  gespeicherten  Gewicht  Xq  abhangig  ist.  Je 
dichter  das  alte  Gewicht  X0  am  Spitzenwert  1  liegt,  umso  wahrschein- 
licher  ist  ein  Uberlauf,  wenn  m  und  N  fest  sind.  So  ist  es  sinnvoll 
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und  vemiinftig,  einen  Durchschnittswert,  namlich  Xq  —  0,5,  fur  die 
Aussage  fiber  eine  konkrete  Obergrenze  des  INDIE  zu  nehmen.  Wah- 
rend  des  Trainings  ist  die  Gewichtsanderung  per  Presentation  relativ 
klein,  d.h  sie  schwingt  in  der  Nahe  des  Ursprungs  des  Werteberei- 
ches  der  Maschinenvariablen.  Dies  entspricht  einer  Schwingung  mn 
0,5  im  W-Bereich.  Aus  diesem  Grund  ist  es  vertretbar,  eine  konkrete 
Untergrenze  fur  m  mit  dem  Wert  X  =  0,55  zu  ermitteln.  Man  erhalt: 


m>  8  wenn  N  =  1000,  XQ  =  0,5  und  X  =  0,55  (3.28) 

oder 

rn  >  10  wenn  N  =  4000,  XQ  =  0,5  und  X  =  0,55  (3.29) 


Fur  den  Unterlauf  kann  man  durch  eine  ahnliche  Analyse  die  gleiche 
Untergrenze  fur  die  Zahlerlange  des  INDIE  erhalten.  Aus  der  Unglei- 
chung  (3.27)  ist  klar  ersichtlich,  daft  ein  Uberlauf  bestimmt  stattfin- 
den  wird,  wenn  das  alte  Gewicht  bereits  an  der  oberen  Grenze  des 
M-Bereiches  liegt  (X0  «  1,0)  und  uber  die  zuriickgefiihrte  Fehlerin- 
formation  weiter  erhoht  werden  mufc  (X  >  0,5).  In  dem  Fall  wird 
sich  wegen  der  Umlaufsperre  im  INDIE-Zahler  eine  Verfalschung  der 
Gewichtsmodifikation  ergeben.  Dies  ist  mit  der  Wertebeschrankung 
auf  den  M-Bereich  [-1,1]  verbunden.  Es  ist  auch  unmoglich,  die  zu 
lernenden  Gewichte  vor  dem  Training  durch  einen  Faktor  zu  normie- 
ren,  so  dafi  sie  wahrend  des  Trainings  garantiert  im  M-Bereich  liegen 
werden.  Uber  dieses  Thema  wird  in  den  folgenden  Kapiteln  weiter 
gesprochen. 

Die  Ergebnisse  einer  Simulation  fur  die  Untersuchung  der  Empfindlichkeit 
des  Verfahrens  beziiglich  der  INDIE-Lange  werden  in  den  Abbildungen  3.7 
und  3.8  gezeigt. 

Aus  den  Abbildungen  konnen  die  vorherigen  Behauptungen  uber  die  Ober- 
und  Untergrenze  des  INDIE  bestatigt  werden.  Dies  konnte  fiir  unbekannte 
Aufgabenstellungen  ein  Hinweis  sein,  wie  man  nach  den  richtigen  Lempara- 
metem  suchen  sollte.  Die  Abbildungen  zeigen  auch,  dafi  die  Lernverfahren 
mit  dem  stochastischen  Rechenwerk  noch  empfindlicher  auf  den  Parameter 
INDIE-Lange  (steile  Kurve)  als  auf  die  ADDIE-Lange  (relativ  flache  Kur- 
ve)  reagieren.  Je  komplexer  die  zu  lernende  Aufgabe  ist,  desto  genauer  mufi 
das  INDIE  gewahlt  werden.  Bei  unbekannten  Aufgaben  konnte  der  hier  ge- 
fundene  beste  Wert  des  INDIE  fiir  die  Suche  nach  dem  geeigneten  INDIE 
als  Ausgangspunkt  und  die  hier  erlauterten  Ober-  und  Untergrenzen  als 
Hinweis  genommen  werden. 
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Datenflle:  fxomew.dat,  Netz:2-2-1,  Laufeeit= 134709  Sekunden 
Takt=1 000,  Max.  Zyklen=2000,  RUN=5,  RUNAB=3 


Abb.  3.7:  EmpBndlichkeit  des  Trainings  bzgl.  INDIE  bei  Aufgabe  1 


3.3.3  Taktanzahl  je  Presentation 

Die  Taktanzahl  N  je  Prasentation  beschreibt  deren  Dauer  und  ist  ebenfalls 
ein  wesentlicher  Parameter,  welcher  den  Trainingsvorgang  folgendermafien 
beeinflussen  kann: 

•  Die  Dauer  des  Trainings  wird  durch  diesen  Parameter  bei  der  Software- 
Simulation  stark  beeinflufit.  Je  hoher  die  Taktanzahl  N  ist,  desto 
langer  dauert  das  Training,  bis  das  Netz  konvergiert  (falls  uberhaupt 
moglich). 

•  Die  Grofie  der  stochastischen  Streuung  ist  durch  diesen  Parameter 
steuerbar  (siehe  Gleichung  (2.17)).  Je  grower  N  ist,  umso  kleiner 
ist  die  entsprechende  Streuung.  Dadurch  kann  die  Rechengenauig- 
keit  wahrend  der  Datenverarbeitung  erhoht  werden.  Aber  wegen  der 
nichtlinearen  Operation  der  Squashfunktion  hat  dies  einen  sehr  gerin- 
gen  Einfiufi. 

•  Die  Gro£e  von  Lernrate  7  und  Momentum-Konstante  a  kann  iiber  den 
Wert  von  N  eingestellt  werden  (siehe  Gleichungen  (3.13)  und  (3.12)). 
Die  Lernrate  7  ist  proportional  zur  Taktanzahl  N ,  wenn  die  Langen 
von  INDIE  und  ADDIE  fest  sind.  Bei  der  Momentum-Konstante  a 
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8  10  12  14  16  18  20 


JNDIE-Zahlerfange  [Bit] 

Datenfile:  encode4f.dat,  Netz:4-2-4,  Laufeeit=60239  Sekunden 
Takt-1000,  Max.  Zyklen=2000,  RUN=5,  RUNAB=3 


Abb.  3.8:  Empfindlichkeit  des  Trainings  bzgl.  INDIE  bei  Aufgabe  2 

ist  es  umgekehrt.  Aus  den  Gleichungen  (3.12)  nnd  (3.13)  ist  zu  sehen, 
daft  die  Lernrate  7  und  die  Momentum-Konstante  a  quasi  unverandert 
bleiben,  wenn  sich  die  Taktanzahl  N  verdoppeln  oder  halbieren  laftt 
und  INDIE  und  ADDLE  gleichzeitig  um  ein  Bit  erhoht  Oder  verkurzt 
werden. 

•  Die  Grofie  von  N  kann  bei  festera  Wert  der  Zahlerlange  des  INDIE 
eine  Ursache  der  Verfalschung  der  Gewichtsmodifikation  sein,  denn 
das  INDIE  ist  eigentlich  ein  Integrator  und  N  bestimmt  die  Dauer 
der  Integration.  Wenn  die  Integration  zu  lange  dauert,  kommt  ein 
Umlauf  im  INDIE-Zahler  bestimmt  vor.  In  diesem  Fall  konnte  die 
Ungleichung  (3.26)  als  Hinweis  fur  die  Auslegung  der  Zahlerlange  ge- 
nommen  werden,  um  die  Verfalschung  von  Gewichtsmodifikationen  zu 
vermeiden. 

Fur  die  Aufgabe  1  wurde  eine  Simulation  mit  unterschiedlichen  Werten  von 
N  durchgefiihrt.  Wegen  des  groften  Zeitaufwands  und  zum  besseren  Ver- 
gleich  wurde  nur  ein  Netz  ohne  ADDIE  in  Betrieb  gesetzt.  Die  Abbildung 
3.9  zeigt  das  Ergebnis  der  Simulation.  In  dieser  Abbildung  ist  deutlich  zu 
sehen,  daft  sich  die  besten  Werte  fur  die  Zahlerlange  des  INDIE,  die  zur 
kiirzesten  Trainingszeit  fiihren,  um  ein  oder  zwei  Bit  erhohen,  wenn  N  ver- 
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doppelt  oder  vervierfacht  wird.  Dies  bestatigt  die  obige  Behauptung.  Aus 
diesem  Grund  sollte  man  bei  der  Suche  nach  der  besten  Kombination  von 
Parametern  immer  mit  einem  niedrigen  Wert  von  N  anfangen,  um  mog- 
lichst  viel  Zeit  zu  sparen.  Andererseits  sollte  N  zur  Feineinstellung  des 
Lernvorgangs  verwendet  werden,  sofem  die  Hardware  dies  zula£t.  Als  ei- 
ne  Faustregel  sollte  der  Wert  von  N  zwischen  1000  und  2000  liegen.  Die 
Anderung  von  N  sollte  bei  der  Suche  nach  dem  besten  Wert  eine  gewisse 
Mindestgrofienordnung  haben,  weil  eine  kleine  Anderung  (z.B  kleiner  als 
100)  von  N  kaum  eine  Wirkung  auf  den  Trainingsvorgang  hat. 


10  12  14  16  18  20  22  24 


Datenfile:  fxornew.dat,  kein  ADDIE,  Max.  Zyklen=2000,  RUN=5,  RUNAB=3 


Abb.  3.9:  Empfmdlicbkeit  des  Trainings  bzgl.  INDIE  bei  Aufgabe  1  mit 
unterschiedlicher  Taktanzabl 

3.3.4  Runlange  der  stochastischen  Automaten 

In  den  obigen  Abbildungen  tauchen  noch  zwei  weitere  Parameter  auf,  nam- 
lich  RUN  und  RUNAB.  Sie  stehen  fur  die  Runlangen  der  stochastischen  Au¬ 
tomaten  zur  Bildung  der  Squash-  bzw.  B-Funktion.  Die  beiden  Parameter 
bestimmen  die  Steilheit  und  Form  dieser  beiden  Funktionen.  Ihre  gemeinsa- 
me  Auswirkung  auf  den  Lernvorgang  entspricht  dem  [i  der  Sigmoidfunktion 
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im  konventionellen  BP-Algorithmus  (siehe  Abschnitt  2.2. 2.2).  Im  konven- 
tionellen  Fall  wird  meistens  /x  =  1  verwendet,  denn  wegen  der  Eigenschaft 
der  Sigmoidfunktion  s(x),  namlich  s'(x)  =  fis(x)[l  —  s(x)],  wirkt  /x  wie  ein 
Multiplikator  der  Lernrate  7  (siehe  Gleichungen  (2.7)  und  (2.8)).  Darum 
wurde  der  Wert  von  /x  in  der  Literatur  kaum  in  Betracht  gezogen.  Im  Ge- 
gensatz  dazu  spielen  die  Runlangen  der  stochastischen  Automaten  hier  eine 
grofiere  Rolle  im  Trainingsvorgang  als  ihr  Aquivalent  im  konventionellen 
Verfahren.  Der  Grund  liegt  bei  den  Einschrankungen,  welche  beim  stocha¬ 
stischen  Verfahren  inharent  bestehen  und  im  nachsten  Kapitel  im  einzelnen 
diskutiert  werden.  Dort  wird  die  Auswahl  dieser  beiden  Parameter  wei- 
ter  besprochen  und  untersucht.  Die  hier  verwendeten  Werte  von  RUN  und 
RUNAB  (z.B.  BUN  =  5  und  RUNAB  —  3)  sind  durch  viele  Software- 
Simulationen  gewonnen  worden.  Eine  Squashfunktion  mit  RUN  —  5  ist  so 
steil  wie  eine  Sigmoidfunktion  mit  /x  =  8.  Dies  wird  in  der  Abbildung  3.10 
gezeigt. 


Abb.  3.10:  Vergleich  der  Steilheit  zwischen  Sigmoid-  und  Squashfunktion 

In  der  obigen  Untersuchung  wurde  ein  Geltungsbereich  der  Lemparame- 
ter  durch  qualitative  Analyse  erworben,  der  als  Leitfaden  der  Auswahl  von 
Trainingsparametern  fur  unbekannte  Aufgabenstellungen  benutzt  werden 
kann.  Aufierdem  wiesen  die  Ergebnisse  der  Simulation  gleichzeitig  die  Tat- 


48 


3.  Parameterwahl  und  Lemverhalten 


sache  auf,  dafi  der  Trainingsablauf  unter  Verwendung  des  Verfahrens  sehr 
empfindlich  auf  die  Zahlerlange  des  INDIE  ist.  Mit  einem  falsch  gewahl- 
ten  Wert  kann  das  Training  zur  Divergenz  fiihren.  Diese  Eigenschaft  kann 
die  Einsetzbarkeit  des  Verfahrens  praktisch  zunichte  machen,  weil  sich  die 
Suche  nach  einer  richtigen  Kombination  der  Lernparameter  fur  das  Trai¬ 
ning  des  Netzes  bei  unbekannten  Lemaufgaben  ebenso  kompliziert  wie  die 
urspriingliche  Aufgabenstellung  gestalten  konnte.  Aufierdem  ist  eine  be- 
liebige  Auswahl  der  Lernparameter  bei  der  Hardware-Implementierung  des 
Verfahrens  nicht  realistisch,  insbesonders  wahrend  der  Trainingsphase.  Was 
ist  die  Ursache  dafiir?  Wie  kann  das  Verfahren  in  dieser  Richtung  verbessert 
werden?  Diese  Fragen  sollen  im  folgenden  Kapitel  untersucht  und  beant- 
wortet  werden. 


4  Einschrankungen  und 
Gegenmafinahmen 


In  diesem  Kapitel  werden  die  Unterschiede  zwischen  dem  hier  behandel- 
ten  Verfahren  und  dem  konventionellen  BP— Algorithmus  bzw.  zunachst  die 
Schwachpunkte  erlautert.  Ihre  Auswirkungen  auf  die  Konvergenzeigenschaf- 
ten  des  NN  werden  dann  naher  untersucht.  Zum  Schlufi  werden  Vorschlage 
fiir  Mafinahmen  gegen  negative  Auswirkungen  gemacht  und  diskutiert. 

4.1  Unterschiede  zum  konventionellen 
BP-Algorithmus 

Das  hier  vorgestellte  Verfahren  ist  nichts  anderes  als  eine  Variante  des  klas- 
sischen  BP-Algorithmus,  welche  auf  der  Basis  der  stochastischen  Rechen- 
technik  implementiert  werden  kann.  Im  Gegensatz  zum  konventionellen 
BP-Algorithmus  tauchen  hier  Einschrankungen  auf,  welche  die  Konvergenz- 
eigenschaften  des  stochastischen  Verfahrens  stark  beeinfiussen  konnen: 

•  Wertebereichseinschrankung 

Der  Informationstrager  in  diesem  Verfahren  ist  die  Wahrscheinlichkeit. 
Dies  fiihrt  zu  einer  Wertebereichseinschrankung  auf  [0,1]  fiir  alle  an 
der  Verarbeitung  beteiligten  Datengro£en.  Sie  wird  in  den  folgenden 
Diskussionen  als  [0, 1]-Einschrankung  bezeichnet.  Um  dieser  zu  genu- 
gen,  muE  jede  Problemvariable  R  vor  der  Verarbeitung  durch  einen 
Normierungsfaktor  Pmax  in  den  M-Bereich  transformiert  werden  (sie- 
he  [51]).  Der  Normierungsfaktor  Pmax  ist  problemabhangig  und  sollte 
gleich  dem  grofiten,  vorzeichenlosen  Betrag  aller  Datengrd£en  im  ent- 
sprechenden  Netz  sein.  Vor  dem  Training  ist  die  Grofienordnung  der 
zu  lemenden  Gewichte  unbekannt.  So  ist  der  Wert  von  Pmax  ledighch 
eine  Abschatzung.  Die  Umlaufsperren  im  INDIE  dienen  dazu,  da£  die 
gelernten  Gewichte  zwingend  im  M-Bereich  bleiben  miissen,  obwohl 
die  optimalen  Gewichte  wegen  einer  moglichen  falschen  Abschatzung 
von  Pmax  aufterhalb  des  M~Bereiches  liegen  konnen.  In  einem  solchen 
Fall  kann  die  beste  Gewichtsbelegung  im  Training  nicht  gefunden  wer¬ 
den. 

•  Das  ^-Mittelungsverfahren 

Statt  der  arithmetischen  Additionen  werden  mittelnde  Additionen  fiir 
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die  Summation  der  gewichteten  Neuroneneingange  verwendet.  Diese 
Einschrankung  entspricht  der  Verwendung  der  stochastischen  Rechen- 
technik,  weil  das  Resultat  einer  Addition  den  W-Bereich  nicht  iiber- 
schreiten  darf. 

•  Squash-  und  Bogenfunktion 

Statt  der  herkommlichen  Sigmoidfunktion  und  ihrer  Ableitungsfunk- 
tion  wird  im  Neuron  die  S-  und  die  B— Funktion  verwendet.  Die  B— 
Funktion  entspricht  nur  einer  groben  Naherung  der  Ableitung  der  S- 
Funktion. 

•  Stochastische  Streuungen 

Im  Gegensatz  zum  konventionellen  Fall,  bei  dem  stochastische  Streu¬ 
ungen  von  Menschenhand  mit  Absicht  eingefiihrt  werden  und  deren 
Starke  demnach  kontrollierbar  ist,  sind  diese  hier  verfahrensbedingt 
und  konnen  sich  durch  hintereinandergeschaltete  stochastische  Re- 
chenwerke  und  Automaten  fur  die  Nichtlinearitaten  massiv  ausbreiten 
und  unerfreulich  vergroEern.  Es  wurde  bereits  im  konventionellen  Fall 
gezeigt,  daE  ein  wenig  stochastische  Streuung  dem  Lemvorgang  hel- 
fen  kann,  wenn  das  Training  in  einem  lokalen  Minimum  steckenbleibt. 
Aber  wird  die  Streuung  zu  stark  und  ubernimmt  sie  eine  dominierende 
Rolle  beim  Training,  dann  fiihrt  ein  Training  durch  Backpropagation 
zu  keinem  sinnvollen  Ergebnis. 

•  Gegenstrom-Verfahren 

Zugunsten  der  Hardware-Implementierung  finden  Lern-  und  Arbeits- 
phase  wahrend  des  Trainings  gleichzeitig  statt,  d.h.  bei  jedem  Takt 
wird  ein  Bit  der  Netzaktivitat1  erzeugt  und  gleichzeitig  eine  Gewichts- 
modifikation  um  ein  Bit  durchgefiihrt.  Dies  hat  zur  Folge,  daE  die  zu 
codierende  Maschinenvariable  nicht  mehr  stationar  bleibt. 

4.2  Auswirkungen  auf  die  Konvergenz 

Hier  wird  zunachst  untersucht,  welche  Auswirkungen  die  oben  genannten 
Abweichungen  vom  originalen  BP-Algorithmus  auf  die  Konvergenz  des  Trai¬ 
nings  haben.  Es  ist  vernunftig  und  logisch,  zuerst  zu  studieren,  wie  sich  ein 
BP-Netz  in  konventioneller  Rechentechnik  verhalt,  wenn  die  oben  genann¬ 
ten  Einschrankungen  einzeln  oder  aile  gleichzeitig  wirken.  Die  so  gewon- 
nenen  Ergebnisse  konnen  als  asymptotische  Eigenschaften,  welche  in  einem 
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BP-Netz  mit  stochastischen  Rechenwerken  erst  nach  unendlich  langer  Be- 
obachtungszeit  sichtbar  werden,  fur  den  stochastischen  Fall  genutzt  werden. 
Bei  einer  zeitlich  begrenzten  Beobachtung  kann  sich  ein  Netz  in  stochasti- 
scher  Rechentechnik  anders  verhalten.  Das  ist  auch  ein  Grund,  warum  eine 
taktgenaue  Software-Simulation  fur  diese  Untersuchung  erforderlich  ist. 

4.2.1  BP-Netz  in  konventioneller  Rechentechnik 

Fiir  die  Untersuchungen  wurde  ein  Simulationsprogramm  erstellt,  welches 
alle  Falle  der  obengenannten  Einschrankungen  behandeln  kann.  Zwei  Sor- 
ten  von  kiinstlichem  Rauschen  wurden  im  Programm  beriicksichtigt,  nam- 
lich  Rauschanteile  fur  die  Gewichte  und  das  Eingabesignal  des  Neurons.  Die 
Starke  des  Rauschens  wird  durch  zwei  Parameter  Wr  und  Xr  gesteuert,  wel- 
che  durch  eine  Benutzerschnittstelle  ( Dialog  Box )  vor  dem  Training  gesetzt 
oder  wahrend  des  Trainings  geandert  werden  konnen.  Die  Rauschanteile 
werden  den  Trainingsvorgang  folgendermaften  beeinflussen: 

•  Bei  der  Gewichtskorrektur: 

W(k  +  1)  =  W(k)  +  A W(k  + 1  )  +  n*Wr  n  €  [-1, 1] 

•  Beim  Berechnen  der  Ableitung  der  Sigmoidfimktion: 

s'(z)  =  /is(x)[l  -  s(x)]  +r2*xr  r2  6  [-1, 1] 

ri  und  r2  werden  durch  den  Zufallsgenerator  des  Compilers  erzeugt.  Da- 
her  ist  die  genaue  Betrachtung  des  Einflusses  der  stochastischen  Streuungen 
und  insbesondere  des  Gegenstrom-Verfahrens  in  einem  BP-Netz  mit  kon¬ 
ventioneller  Rechentechnik  kaum  zu  realisieren.  Dies  wird  deshalb  in  einem 
Netz  mit  stochastischer  Rechentechnik  naher  betrachtet  (Siehe  Abschnitt 
4.2.2). 


4.2. 1.1  [0,1]-Einschrankung 

In  der  konventionellen  Rechentechnik  konnen  alle  Datengro£en  vorzeichen- 
behaftet  sein,  doch  soli  hier  die  [0,1]-Einschrankung  eine  Wertebereichsein- 
schrankung  der  beteiligten  Datengro£en  auf  [-1, 1]  bedeuten,  d.h.  sich  auf 
den  M-Bereich  beziehen.  Hier  handelt  es  sich  nur  um  die  Gewichte  des  Net- 
zes,  weil  die  Trainingsmuster  vor  dem  Training  auf  den  M-Bereich  normiert 
werden  konnen.  Wenn  die  Gewichte  am  Anfang  innerhalb  des  M-Bereiches 
initialisiert  werden,  dann  ist  eine  Uberpriifung  fur  den  Umlauf  des  Wer- 
tebereiches  nur  bei  den  Additionsoperationen  notwendig,  namlich  bei  der 
Gewichtskorrektur  und  bei  den  Skalarprodukten  der  Vektoren.  Dies  bnn 
erreicht  werden,  indem  ein  Normierungsfaktor  Pmax  vorher  abgeschatzt  wird 
und  die  zu  lernenden  Gewichte  entsprechend  normiert  werden,  d.h.: 


^  d±f 

W*J  —  T> 


(4.1) 
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Der  Normierungsfaktor  Pmax  sollte  groft  genug  sein,  so  daft  kein  Uberschrei- 
ten  des  Wertebereich es  von  Gewichten  bei  der  Gewichtskorrektur  stattfin- 
den  kann.  Bezeichnet  /x  die  Steilheit  der  Sigmoidfunktion  in  diesem  Fall, 
so  ergibt  sich  die  Aktivitat  des  Neurons  (siehe  Gleichung  2.5  im  Abschnitt 
2.2.2.2)  zu: 


s  = 


ni-i 


i=0 

1 

a  vn»-i  ^Ci^T 
1  -|- e~P 2^i=o  waxi 

1 

a  rni-i  ...to 
l  +  e“  P max  Z^i=0  O  1 


(4.2) 


Im  Vergleich  zur  urspriinglichen  Definition  der  Aktivitat  des  Neurons  ergibt 
sich: 

A  =  Pmax  l i  (4'3) 

Aus  Gleichung  4.3  laftt  sich  folgendes  schlieften:  Erstens  kann  die  Auswir- 
kung  des  Normierungsfaktors  Pmax  durch  den  Lernparameter  /x,  d.h.  die 
Steilheit  der  Sigmoidfunktion,  kompensiert  werden,  obwohl  er  nicht  vor- 
her  angegeben  werden  kann.  Zweitens  sollte  eine  steilere  Sigmoidfunkti¬ 
on  (mit  groftem  Wert  von  /x,  weil  Pmax  meistens  grofter  als  Eins  ist)  ver- 
wendet  werden,  um  ein  erfolgreiches  Training  zu  erreichen,  wenn  die  [0,1]- 
Einschrankung  auf  den  Lernvorgang  Einfluft  nimmt.  Wie  in  Abschnitt  3.3.4 
erlautert,  wirkt  /x  wie  ein  Multiplikator  der  Lemrate  7  (siehe  Gleichungen 
(2.7)  und  (2.8)).  Daher  mufi  die  Lernrate  7  in  diesem  Fall  kleiner  als  zuvor 
gewahlt  werden.  Sonst  wird  das  Trainingsverhalten  divergent.  Abbildung 
4.1  zeigt  das  Simulationsergebnis  eines  konventionellen  BP-Algorithmus 
und  Abbildung  4.2  das  eines  BP-Algorithmus  mit  der  [0,1]-Einschrankung. 
Interessant  ist,  daft  die  Steilheit  der  Sigmoidfunktion  (/x  =  8),  mit  wel- 
cher  das  Training  konvergiert,  der  Steilheit  der  S— Funktion  mit  RUN  ~  5 
entspricht.  Diese  Ubereinstimmung  wurde  bereits  im  Abschnitt  3.3.4  ge- 
funden.  Insofern  konnte  das  hier  erhaltene  Ergebnis  ein  indirekter  Hinweis 
fur  die  Auswahl  RUN=5  sein,  die  durch  viele  Simulationen  in  der  stocha- 
stischen  Rechentechnik  fur  die  Aufgabe  1,  namlich  das  XOR— Problem,  ge- 
wonnen  wurde.  Aufgefallen  ist  auch,  daft  die  Rauschanteile  im  Fall  der 
[0 , 1]-Einschrankung  die  Konvergenz  des  Trainings  stark  beeinflussen  kon- 
nen.  Diese  Eigenschaft  kann  sich  einerseits  als  Vorteil  eines  Netzes  in  sto- 
chastischer  Rechentechnik  auswirken,  andererseits  ist  der  Trainingsvorgang 
schwer  zu  steuern.  Mit  gewissen  Rauschanteilen  konnen  die  Anfangswerte 
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Anzahl  Epochen 

W=X=0,001 

Abb.  4.1:  Ergebnis  des  konventionellen  BP  fur  das  XOR~Problem 

aller  Gewichte  auf  Null  gesetzt  werden,  was  be!  einigen  Aufgaben  den  Kon- 
vergenzvorgang  beschleunigen  konnte.  Bei  der  Hardware-Implementierung 
des  hier  vorgestellten  Verfahrens  wird  eine  Null-Initialisierung  aller  Gewich- 
te  bereits  verwendet. 

Die  obige  Analyse  deutet  an,  da£  die  [0,1]-Einschrankung  allein  kein  grofies 
Hindernis  fur  die  Konvergenz  des  Verfahrens  darstellen  diirfte,  falls  eine  stei- 
lere  Sigmoidfunktion  und  bestimmte  Rauschanteile  zum  Einsatz  gebracht 
werden.  Die  Rauschanteile  bringen  zudem  noch  den  Vorteil,  daft  alle  Ge¬ 
wichte  mit  Null  initialisiert  werden  konnen,  ohne  da£  dadurch  das  Netz 
seine  Fahigkeit  verliert,  die  Gewichte  durch  BP  zu  adaptieren.  Diese  ein- 
fache  Initialisierung  der  Gewichte  kommt  einer  Hardware-Implementierung 
entgegen,  obwohl  es  keine  Garantie  gibt,  dafc  eine  Null-Initialisierung  den 
Trainingsvorgang  bei  alien  Aufgabenstellungen  beschleunigen  kann. 

4.2. 1.2  Problem 

Das  [^-Problem  stammt  aus  der  [0,1]-Einschrankung,  die  durch  eine  tra- 
ditionelle  Addition  von  N  Summanden  jedoch  verletzt  werden  kann.  Um 
dies  zu  vermeiden,  werden  statt  arithmetischer  Additionen  mittelnde  Ad- 
ditionen  verwendet.  Sei  £  die  Steilheit  fur  diesen  Fail,  dann  lafit  sich  die 
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0  5000  10000  15000  20000 


Anzahl  Epochen 

W=X=0,01 


Abb.  4.2:  Ergebnis  des  BP  mit  der  [0,1]-Einschrankung  fur  das  XOR- 
Problem 

Aktivitat  eines  Neurons  folgendermafien  beschreiben: 


l_l_e“F2^i=o  wi>x* 


Ahnlich  wie  bei  der  [0,1]-Einschrankung  ergibt  sich: 

ji  =  Np  (4.5) 

Die  Gleichung  4.5  deutet  darauf  hin,  dafi  die  Nebenwirkung  der  mittelnden 
Additionen  auf  die  Aktivitat  des  Neurons  durch  eine  steilere  Sigmoidfunk- 
tion  ausgeglichen  werden  kann.  Je  grofier  die  Anzahl  der  Neuroneneingange 
ist,  desto  steiler  sollte  die  Sigmoidfunktion  sein.  Fur  das  XOR-Problem 
ist  die  Auswirkung  des  [^-Problems  allein  sehr  gering,  weil  die  Neuro- 
nen  im  Netz  hochstens  drei  Eingange  haben.  Die  Simulationsergebnisse 
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werden  in  Abbildung  4.3  gezeigt.  Aufier  der  Steilheit  [i  sind  aile  ande- 
ren  Lernparameter  in  der  Simulation  fur  die  beiden  Fade  (ohne  und  mit 
^-Mittelungsverfahren)  mit  gleichen  Werten  gewahlt.  Aus  dieser  Abbil¬ 
dung  ist  deutlich  zu  sehen,  dafi  der  Verlauf  des  Lernfehlers  im  Fall  des 
Mittelungsverfahrens  mit  [i  =  3  fast  identisch  ist  zu  dem  originalen  Fall  mit 
[i  —  2.  So  diirfte  diese  Einschrankung  allein  keine  Auswirkung  auf  die  Kon- 
vergenzeigenschaft  des  Verfahrens  haben.  Sie  kann  lediglich  die  Auswahl  der 
Lernparameter  und  die  Geschwindigkeit  des  Trainings  leicht  beeinflussen. 


Abb .  4.3:  Auswirkung  des  -fc-Mttelungsverfahrens  beim  XOR-Problem 


4.2. 1.3  Squash-  und  Bogenfunktion 

Die  Verwendung  einer  Sigmoidfunktion  ist  im  BP-Algorithmus  kein  Mufi. 
Das  Gradientenabstiegsverfahren  fordert  nur,  dafi  die  Uberfuhrungsfunktion 
der  Neuronen  streng  monoton  steigend  ist  und  sich  asymptotisch  den  Grenz- 
werten  nahert.  Offensichtlich  erfollt  die  Squash-  bzw.  S-Funktion  solche 
Bedingungen.  So  kann  sie  die  Sigmoidfunktion  im  BP-Algorithmus  erset- 
zen.  Aber  die  ideale  Ableitung  der  S-Funktion,  welche  fiir  die  Konvergenz 
des  Verfahrens  eine  entscheidende  Rolle  spielt,  ist  aus  Sicht  der  Hardwa¬ 
re  nicht  leicht  zu  implementieren.  Statt  dessen  wird  eine  Bogenfunktion 
(B-Funktion)  verwendet,  welche  die  ideale  Ableitung  der  S-Funktion  anna- 
hert  und  in  Hardware  leicht  implementiert  werden  kann.  In  [51]  wurde  der 
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Konvergenznachweis  bisher  nur  unter  der  Annahme  idealer  Ableitungen  der 
Squashfunktion  erbracht.  Nun  wird  bewiesen,  da£  das  Training  trotz  des 
Einsatzes  der  B-Funktion  als  Ersatz  der  idealen  Ableitung  der  S-Funktion 
weiterhin  konvergieren  kann. 

Sei  E  die  Anzahl  samtlicher  Gewichte  und  W  ein  langer  Vektor  der  Dimensi¬ 
on  E {W  €  #E),  welcher  alle  Gewichte  des  Netzes  umfafit.  Kurz  geschrieben, 
W  =  (wjj).  Die  Aufgabe  des  BP-Algorithmus  entspricht  der  folgenden  Pro- 
blemstellung  einer  Optimierung:  Suche  nach  dem  entsprechenden  W*,  so 

da&  _  ,  x 

E(W*)  =  min.  (4.6) 

E(...)  ist  die  nichtlineare  Gesamtfehlerfunktion.  Das  Problem  wird  mit 
dem  BP-Algorithmus  iterativ  gelost.  Im  allgemeinen  lauft  das  Verfahren 

wie  folgt  ab:  ^  _ 

Gegeben  sei  der  initiale  Gewichtsvektor  Wo-  Eine  Folge  Wk  werde  iterativ 
so  erzeugt,  daft  Wk  gegen  W*  konvergiert: 

Wk+1  =  Wk  +  \kSk  (4-7) 


Xk  wird  als  Suchschrittweite  bezeichnet  und  Sk  als  Suchrichtung.  Fiir  das 
Anlegen  des  p-ten  Trainingsmusters  beim  Eingang  wird  die  Suchrichtung 
als  Skip)  bezeichnet.  In  [22]  wurde  bewiesen: 

Wenn  die  Bedingung  _  , ,  _ 

(Sk)TVE{Wk)  <  0  (4.8) 

erfullt  wird,  dann  existiert  eine  Konstante  A  >  0,  so  dafi  fiir  alle  A  mit 


E(Wk+i)  :=E(Wk+XSk)  <E(Wk)  (4-9) 

Die  Ungleichung(  4.9  )  in  Verbindung  mit  E(W)  >  0  gewahrleistet,  dafi  die 
Folge  {Wk}  gegen  W*  oder  gegen  ein  lokales  Minimum  konvergiert. 

Im  herkommlichen  BP-Algorithmus  wird  der  negative  Gradient  der  Fehler- 
funktion  ~VE(Wk)  als  Suchrichtung  genommen,  daher  ist  (4.8)  klar  erfullt. 
Der  Gradient  im  BP  lafit  sich  so  ermitteln  [57]: 


-  ,  dEp  dEp  dEp  ^ T 

vEp{Wk)  -  (dw1i(kydwi2(ky”'dwij(ky‘“) 

&Ep  _  r  Q  . 

dwyik) 

=  Opjfi^Spiwuik)  (4.10) 


mit 
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p  :  Muster-Index 
k  :  Iterationsindex 
i,j  :  Neuron-Index 
l  :  Summationsindex 

0Pj  :  Ausgangssignal  des  j-ten  Neurons  beim  Anlegen  des  p-ten  Trainings- 
musters  beim  Netzeingang 

f  'i  :  Ableitung  der  Sigmoidfunktion  des  i-ten  Neurons 


Wenn  die  B-Funktion  zum  Einsatz  kommt,  so  laftt  sich  die  Suchrichtung 
Skip)  folgendermafcen  ermitteln: 

Sk(p)  =f  (4(p))  (4.11) 

^ij (p)  =  ~Opjbj  'y  /Spiwu(k)  (4.12) 

i 

Dabei  ist  hi  die  Bogenfunktion  des  i-ten  Neurons. 

Die  Squashfunktion  verlauft  im  Maschinen-Bereich  [-1,1]  streng  monoton 
steigend.  Demnach  ist  ihre  ideale  Ableitung  /  in  dem  Bereich  stets  positiv. 
Die  B-Funktion  ist  im  Bereich  (-1,1)  ebenfalls  immer  positiv.  Dadurch 
ergibt  sich: 

4W  *  =  ~02pj(f'ibi)(£  W*))'  <  0  (4-13) 

So  ist  die  Abstiegsbedingung  (Ungleichung  4.8)  sofort  erfullt,  wenn  nicht 
alle  Gewichte  gleich  Null  sind.  Damit  ist  die  Konvergenz  des  Verfahrens 
nachgewiesen.  Zwar  ist  die  Suchrichtung  nicht  mehr  die  Richtung  des  lokal 
steilsten  Abstiegs  der  Fehlerfunktion,  aber  doch  so,  dafi  der  Lernprozefi 
konvergent  verlauft. 

In  der  Tat  bringt  der  Einsatz  der  S-  und  B-Funktionen  kaum  Schwierig- 
keiten  beim  Training  eines  konventionellen  BP-Netzes.  In  Abschnitt  2.3.3 
wurde  bereits  erlautert,  dafi  die  S-Funktion  nur  im  Intervall  [-1,1]  eine 
gute  Anpassung  an  die  Sigmoidfunktion  besitzt.  Dies  bedeutet,  dafi  die 
Eingangssignale  normierte  Daten  sein  sollten.  Um  dies  zu  garantieren,  ist 
von  der  [0, 1]-Einschrankung  die  Rede.  Die  Abbildung  4.4  zeigt  einige  Er- 
gebnisse  von  Simulationslaufen,  welche  mit  unterschiedlichen  Parametern 
fiir  das  XOR-Problem  durchgefuhrt  wurden. 
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Wr=Xr=0,001 

1 .  Mit  [0,1]-Einschrankung,  Null-Anfangswert 

2.  Mit  [0,1]-Einschrankung,  Zufalis-Anfangswert 

3.  Mit  S/B-Funktion  und[0,1]-Einschrankung 
Null-Anfangswert,  RUN=5,  RUNAB=3 

4.  Mit  S/B-Funktion  und[0,1]-Einschrankung 
Zufalis-Anfangswert,  RUN=5,  RUNAB=3 


Abb.  4.4 :  Auswirkung  des  Einsatzes  der  S-  und  B-Funktion  bei  der  Ld- 
sung  des  XOR-Problems 


Es  ist  in  der  Abbildung  4.4  deutlich  zu  sehen,  dafi  das  Trailing  beim  Einsatz 
der  S-  und  B-Funktionen  schneller  konvergiert  als  im  Fall  der  traditionel- 
len  Sigmoidfunktion.  Diese  Ergebnisse  zeigen  nicht  nur  eine  Bestatiping 
der  obigen  theoretischen  Herleitung,  sondern  auch  die  vorteilhafte  Eigen- 
schaft  des  Einsatzes  der  S-  und  der  B-Funktion  gegeniiber  dem  Einsatz  der 
steilen  Sigmoidfunktion,  wenn  starkes  Rauschen  und  [0, 1]-Einschrankung 
beim  Training  auftreten.  Dies  ist  genau  beim  hier  erlauterten  Verfahren 
der  Fall.  In  der  Simulation  ergeben  sich  beim  Einsatz  der  Sigmoidfunk¬ 
tion  mit  der  Steilheit  /x  =  8,  welche  der  Steilheit  der  S-Funktion  mit 
RUN  =  5  entspricht,  gro£e  Konvergenz-Schwierigkeiten,  obwohl  ihre  ech- 
te  Ableitung  berechnet  wurde  und  somit  die  lokal  steilste  Abstiegsrichtung 
zur  Wirkung  kam.  Der  Grund  liegt  darin,  da£  die  Sigmoidfunktion  wegen 
ihrer  Steilheit  sehr  oft  in  den  Sattigungsbereich  gerat  und  ihre  Ableitung 
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s'(a;)  =  /2s(rr) [1  —  $(x)]  dort  sehr  leicht  ein  mngekehrtes  Vorzeichen  haben 
kann,  wenn  bei  ihrer  Berechnung  starkes  Rauschen  eine  Rolle  spielt.  So 
konnte  die  dadurch  bestimmte  Suchrichtung  genau  entgegengesetzt  sein  zur 
Richtung  des  lokal  steilsten  Abstiegs  der  Fehlerfunktion.  Demzufolge  wird 
das  Training  mehr  Epochen  benotigen  als  ohne  Rauschen.  Dagegen  hat 
die  B-Funktion  nichts  zu  tun  mit  der  Steilheit  beziehungsweise  mit  dem 
Sattigungsbereich  der  S-Funktion. 

4.2. 1.4  Zusammenwirken  der  Einschrankungen 

In  den  obigen  Abschnitten  wurde  der  Einflufi  der  Einschrankungen  ein- 
zeln  untersucht.  Jedoch  treten  alle  Einschrankungen  im  hier  vorgestellten 
Verfahren  gleichzeitig  auf.  So  ist  es  notwendig,  ihr  Zusammenwirken  zu 
untersuchen  und  mogliche  negative  Auswirkungen  einzuschatzen. 

Die  Analyse  in  den  vorherigen  Abschnitten  zeigt,  daft  es  aus  theoretischer 
Sicht  entsprechende  Maftnahmen  gibt,  um  die  negativen  Auswirkungen  jeder 
Einschrankung  fiir  sich  zu  beseitigen  oder  zu  kompensieren.  Die  Mafinah- 
men  zur  Kompensation  der  [0, 1]-Einschrankung  und  des  ^-Mittelungsver- 
fahrens  sind  gleich,  namlich  die  Verwendung  einer  steileren  Sigmoidfunkti- 
on.  Logischerweise  ist  vorzusehen,  dafi  eine  noch  steilere  Sigmoidfunktion 
verwendet  werden  soli,  wenn  beide  Einschrankungen  gleichzeitig  auftreten. 
Wie  in  Abbildung  4.5  gezeigt  wird,  liefert  die  Simulation  ein  Ergebnis,  das 
dem  vorangegangenen  ahnelt. 

Aus  der  Simulation  lassen  sich  folgende  Erkenntnisse  gewinnen: 

•  Wenn  [0, 1]-Einschrankung  und  -Mitt elungs verfahren  gleichzeitig 

beim  Training  wirksam  sind,  dann  kann  das  Training  nur  unter  Ver¬ 
wendung  einer  sehr  steilen  Sigmoidfunktion  zur  Konvergenz  kommen. 

•  Die  Lernrate  7  mufi  sehr  klein  gehalten  werden,  wenn  die  Sigmoidfunk¬ 
tion  sehr  steil  ist.  Andernfalls  gerat  das  Training  in  die  Divergenz  oder 
bleibt  in  einem  lokalen  Minimum  hangen. 

•  Wegen  der  kleinen  Lernrate  kann  die  Starke  des  Rauschens  eine  ent- 
scheidende  Rolle  fur  die  Konvergenz  des  Trainings  spielen  (siehe  Fall 
4  in  der  Abbildung  4.5). 

•  Aufier  den  Gewichten  zu  den  Bias-Eingangen  liegen  alle  Gewichte  in 
der  Nahe  ihrer  zugelassenen  Grenzwerte,  namlich  —1  oder  +1,  wenn 
der  Lernfehler  beim  Training  irgendwo  steckenbleibt. 

Je  mehr  Einschrankungen  gleichzeitig  auftreten,  umso  schwieriger  wird  es, 
das  entsprechende  Netz  erfolgreich  zu  trainieren.  Die  Abbildung  4.6  gibt 
eine  qualitative  Darstellung  fiir  die  Schwierigkeit  des  Trainings,  wenn  eine, 
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2-2-1  Netz  fur  XOR-Problem  mit  [0,1]-Einschrankung 
und  1/N-Verfahren. 


Abb.  4.5:  Zusammenwirken  der  Einschrankungen  beim  XOR-Problem 

zwei  und  drei  Einschrankungen  gleichzeitig  im  Netz  auftreten.  Jeder  Kreis 
mit  Text  reprasentiert  das  Auftreten  der  entsprechenden  Einschrankung  im 
BP-Netz.  Die  Graustufen  stellen  das  Schwierigkeitsniveau  des  Trainings 
dar  (je  dunkler,  umso  schwieriger).  Am  schwierigsten  ist  das  gleichzeitige 
Auftreten  der  [0, 1]-Einschrankung,  des  i-Mittelungsverfahrens  und  des 
Einsatzes  der  S-  und  B-Funktionen.  In  diesem  Fall  ist  es  sehr  schwer,  das 
entsprechende  Netz  mit  konventioneller  Rechentechnik  zur  Konvergenz  zu 
bringen.  Die  meisten  Versuche  fuhrten  zu  einem  divergenten  Trainingsver- 
halten. 

4.2.2  BP-Netz  in  stochastischer  Rechentechnik 

Fur  die  Realisierung  von  BP— Netzen  mit  stochastischen  Rechenwerken  ist 
die  Erzeugung  von  Zufallsfolgen  erforderhch.  Aber  es  ist  kaum  moglich, 
eine  echte  Zufallsfolge  (Bernoulli-Folge)  zu  erzeugen.  Stattdessen  kommen 
binare  Pseudozufallsfolgen  (BPZF)  in  Betracht.  Erne  bekannte  Familie  von 
BPZF  ist  die  sogenannte  m-Sequenz  [36],  welche  sich  durch  Modulo-2  ruck- 
gekoppelte  Schieberegister  sehr  einfach  erzeugen  la£t.  Im  vorgestellten  Ver- 
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trivial  groBe  Schwierigkeit 


Abb.  4.6:  Schwierigkeitsgrad  des  Drainings  in  Abhangigkeit  des  Auftretens 
der  einzelnen  Einschrankungen 


fahren  werden  viele  m-Sequenzen  erzeugt  und  zum  Einsatz  gebracht  [51]. 
Man  darf  jedoch  nicht  aufier  Acht  lassen,  daft  m-Sequenzen  nur  einige  und 
nicht  alle  Merkmale  einer  echten  Zufallsfolge  aufzeigen.  Insbesondere  treten 
leicht  uniibersichtliche  Verhaltnisse  in  Bezug  auf  die  gegenseitige  Unabhan- 
gigkeit  bei  gleichzeitiger  Verarbeitung  mehrerer  m-Sequenzen  in  stochasti- 
schen  Rechenwerken  auf.  Nach  Massen  [36]  soliten  m-Sequenzen  in  der 
stochastischen  Rechentechnik  nur  dort  eingesetzt  werden,  wo  die  stocha- 
stische  Codierung  und  Decodierung  im  Vordergrund  steht  und  nur  einige 
einfache  arithmetische  Operationen  durchgefiihrt  werden.  Dies  ist  in  dem 
hier  erlauterten  Verfahren  der  Fall,  weil  die  erzeugten  m-Sequenzen  mei- 
stens  als  Hilfsfolgen  fiir  die  Codienmg  verwendet  werden.  Eine  m-Sequenz 
hat  folgende  Eigenschaften,  die  etwa  den  Merkmalen  einer  echten  Zufalls¬ 
folge  entsprechen: 

•  Die  Haufigkeit  des  Erscheinens  einer  Eins  ist  etwa  gleich  der  Haufigkeit 
des  Erscheinens  einer  Null  in  der  binaren  Folge.  Aus  diesem  Grund 
wird  sie  als  0,5-Folge  bezeichnet. 
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•  Folgen  von  konsekutiven  gleichen  Ereignissen,  sogenannte  RUNs,  sind 
um  so  haufiger,  je  kiirzer  die  RUN-Lange  ist.  Im  allgemeinen  sollen 
etwa  die  Halfte  der  RUNs  die  Lange  1  haben,  ein  Viertel  die  Lange  2 
usw.,  d.h.  die  Anzahl  Z{1)  der  RUNs  mit  Lange  l  aus  einer  m-Sequenz 
mit  der  Lange  L*  betragt  etwa: 


m= 


L* 

2(*+2) 


(4.14) 


Die  Werte  von  Z(l)  entsprechen  den  unterscbiedlichen  Langen  der  RUNs  und 
bilden  eine  Runlangen-Verteilung,  auf  welche  in  den  folgenden  Abschnitten 
Bezug  genommen  wird.  Abbildung  4.7  zeigt  die  Runlangen-Verteilung  einer 
m-Sequenz,  welche  mit  der  in  [51]  erlauterten  Technik  erzeugt  wird.  Die 
Runlangen-Verteilung  stimmt  mit  der  Gleichung  4.14  uberein. 


Abb.  4.7:  Runlangen-Verteilung  einer  0,5-Folge 
4.2.2. 1  Einsatz  von  S-  und  B-Funktion 

Wie  im  Abschnitt  2.3.3  erlautert  wurde,  werden  die  S-  und  die  B-Funktion 
durch  Automaten  implementiert.  Die  Automaten  werden  dementsprechend 
als  S-  und  B-Automat  bezeichnet  und  entsprechen  einfachen  Runlangen- 
Akzeptoren.  So  spielt  die  Runlangencharakteristik  der  Eingangsfolgen  fiir 
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die  Reaktion  des  Automaten  eine  grofie  Rolle.  In  einem  MLN  sind  Neu- 
ronenschichten  seriell  miteinander  verbunden.  Das  bedeutet,  dafi  die  Aus¬ 
gangsfolge  eines  Neurons  der  dahinter  liegenden  Schicht  als  Eingangsfolge 
zugefiihrt  wird.  Daher  ist  es  notwendig,  die  Runlangencharakteristik  der 
Ausgangsfolge  eines  S-Automaten  zu  studieren,  wenn  dieser  fur  die  Im- 
plementierung  der  S-Funktion  zum  Einsatz  kommt.  Fur  die  Untersuchung 
wird  folgendes  Schema  verwendet:  Ein  deterministischer  Wert  P  =  0, 5  wird 
zuerst  unter  Hinzunahme  einer  Hilfsfolge  (einer  m-Sequenz)  in  eine  binare 
Folge  codiert  tmd  dann  in  den  S-Automaten  eingefuhrt.  Aufierdem  werden 
zwei  Monitore  (Ml  und  M2)  eingerichtet,  um  die  Runlangen-Verteilung  der 
entsprechenden  binaren  Folgen  zu  beobachten  (siehe  Abbildung  4.8). 


Hilfsfolge 


Abb.  4.8:  Blockscbema  fiir  die  Untersuchung  der  Runlangencharakteristik 
eines  S-Automaten 

Die  in  Ml  beobachtete  binare  Folge,  die  sogenannte  Eingangsfolge  des  S- 
Automaten,  hat  dieselbe  Runlangencharakteristik  wie  eine  m-Sequenz.  Ihre 
Runlangen-Verteilung  wurde  bereits  in  der  Abbildung  4.7  gezeigt.  Dagegen 
entspricht  die  Runlangen-Verteilung  der  Ausgangsfolge  des  S-Automaten 
(beobachtet  durch  M2)  nicht  mehr  einer  m-Sequenz.  Die  Folge  besteht  aus 
nur  wenigen  RUNs,  die  sehr  lang  sind  (siehe  Abbildung  4.9).  Je  steiler  die 
S-Funktion  ist,  umso  geringer  ist  die  Anzahl  der  RUNs  und  umso  langere 
RUNs  besitzt  ihre  Ausgangsfolge,  obwohl  die  Haufigkeit  des  Erscheinens 
einer  Eins  dennoch  um  0,5  liegt. 

Nun  entspricht  die  Ausgangsfolge  nicht  mehr  einer  m-Sequenz,  sondem  ist 
eine  Folge,  deren  Verhalten  durch  das  Bildungsgesetz  des  S-Automaten  ge- 
pragt  ist.  Diese  binare  Folge  verliert  damit  von  jetzt  an  ihre  urspriingliche 
stochastische  Unabhangigkeit  und  RUN-Langenverteilung,  welche  aber  ei¬ 
ne  Voraussetzung  fiir  die  weiteren  Verarbeitungsschritte  ist.  Wird  diese 
Ausgangsfolge  einem  S-Automaten  in  der  nachfolgenden  Schicht  zugefiihrt, 
funktioniert  letzterer  quasi  nur  wie  eine  lineare  Funktion.  Gliicklicherweise 
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Abb.  4.9:  Runlangen-Verteilung  der  Ausgangsfolge  eines  S-Automaten 


findet  noch  eine  weitere  Operation  dazwischen  statt.  Dies  ist  die  Multi- 
plikation  der  Ausgangsfolge  des  vorherigen  S-Automaten  mit  dem  Gewicht 
Wf  welches  durch  eine  0,5-Folge  (eine  m-Sequenz)  in  eine  binare  Folge  co- 
diert  wird.  Dadurch  kann  die  erwartete  Runlangencharakteristik  und  damit 
auch  die  stochastische  Unabhangigkeit  wieder  hergestellt  werden,  wenn  das 
Gewicht  den  Wert  Null  (im  M-Bereich)  annimmt  oder  in  der  Nahe  von 
Null  liegt.  Die  Abbildung  4.10  zeigt  die  Runlangen-Verteilung  der  Fol¬ 
ge,  die  nach  der  Multiplikation  zwischen  dem  Neuronenausgang  und  einem 
Gewicht  w  =  0  entsteht.  Es  ist  deutlich  zu  sehen,  dafi  die  typische  Runlan¬ 
gencharakteristik  einer  m-Sequenz  wieder  hergestellt  ist. 

Je  weiter  allerdings  das  Gewicht  von  Null  entfemt  ist,  desto  weniger  kann 
diese  Gewichtung  die  verlangte  Verteilung  wieder  herstellen.  Nimmt  das 
Gewicht  einen  maximalen  Betragswert  (—1  oder  1)  an,  ist  die  Wiederher- 
stellung  der  Verteilung  nicht  mehr  moglich  (siehe  Abbildung  4.11).  Daher 
hat  das  nachfolgende  Neuron  (implementiert  durch  einen  S-Automaten) 
nicht  mehr  die  ihm  zugedachte  Wirkung. 

Wegen  der  Uberlaufsperre  des  Gewichtsglieds  mufi  man  bevorzugt  von  ei¬ 
nem  maximalen  Betragswert  eines  Gewichts  beim  Training  ausgehen.  Denn 
die  Ausgangsfolge  eines  B-Automaten,  die  zur  Gewichtskorrektur  verwendet 
werden  soli,  ist  auch  keine  m-Sequenz  mehr  und  besteht  ebenfalls  aus  eini- 
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Abb.  4.10:  Runlangen-Verteilung  der  nacb  der  Multiplikation  zwischen 
dem  Neuronenausgang  und  einem  Gewicht  w  =  0  entstebenden 
Folge 


gen  langen  RUNs.  Ein  langes  RUN  kann  den  Zahler  in  einem  INDIE-Glied 
zum  Uberlauf  bringen.  Dadurch  kann  die  oben  genannte  ungiinstige  Situa¬ 
tion  wahrend  des  Trainings  haufig  eintreten.  Nehmen  jedoch  alle  Gewichte 
in  einem  MLN  die  maximalen  Betragswerte  an  und  zeigen  die  Eingange  al- 
ler  Neuronen  in  der  ersten  Schicht  eine  0,5-Folge,  dann  bleibt  das  Training 
stecken.  Nun  stellt  sich  die  Frage,  wie  die  Eingangsfolge  eines  Neurons  eine 
0,5-Folge  werden  kann,  wenn  nur  Einsen  und  Nullen  am  Eingang  des  Net- 
zes  angelegt  werden.  Zuruckblickend  auf  die  Arbeitsweise  des  Netzes  mit 
stochastischen  Rechenwerken  werden  die  Eingangswerte  in  binare  Folgen 
codiert  und  dann  mit  entsprechenden  Gewichten  multipliziert,  welche  wah¬ 
rend  des  Trainings  dann  leicht  extreme  Werte  erreichen  konnen.  Danach 
wird  eine  Eingangsfolge  fur  jedes  Neuron  durch  eine  mittelnde  Addition 
(implementiert  durch  einen  Multiplexer)  erzeugt  (siehe  Abbildung  4.12). 

Die  Gewichtswerte  liegen  im  Intervail  [0, 1],  wenn  sie  im  W-Bereich  betrach- 
tet  werden,  und  bewegen  sich  wahrend  des  Trainings  in  diesem  Intervail 
gemafc  dem  Lemalgorithmus  oder  auch  zufallig,  je  nachdem  wie  stark  die 
stochastische  Streuung  ist.  In  diesem  Sinn  konnte  jedes  Gewicht  als  eine  in 
dem  Intervail  [0, 1]  gleichverteilte  stochastische  Variable  betrachtet  werden. 
Infolgedessen  wird  der  Mittelwert  alter  Gewichte  0,5  sein,  wenn  die  Anzahl 
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Abb.  4.11:  Runlangen-Verteilung  der  nach  Multiplikation  zwiscben  dem 
Neuronenausgang  und  einem  Gewicht  w  =  1  entstebenden  Fol- 

ge 


Abb.  4.12:  Blockschema  zui  Erzeugung  der  Eingangsfolge  eines  Neurons 


N  der  Gewichte  vor  einem  Neuron  grofi  genug  ist.  Dadurch  wird  die  Re- 
sultatfolge  der  mittelnden  Addition,  welche  als  Eingangsfolge  des  nachste* 
henden  Neurons  dient,  sicher  eine  0,5-Folge  sein.  Fur  diesen  Ansatz  sollen 
weitere  theoretische  Analysen  oder  Simulationen  durchgefiihrt  werden. 
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Noch  eine  weitere  Eigenschaft  des  S-Automaten  ist  wahrend  der  Simula¬ 
tion  aufgefallen.  Der  Verlauf  der  S-Funktion,  die  der  S-Automat  liefem 
soil,  wird  sehr  stark  von  der  Verteilung  der  binaren  Werte  seiner  Ein- 
gangsfolge  beeinflufit.  Diese  Eigenschaft  entstammt  der  Arbeitsweise  des 
S-Automaten,  der  lediglich  einen  Runlangen-Akzeptor  darstellt.  Das  heifit, 
da£  die  S-Funktion  bei  unterschiedlichen  DSCs  (siehe  Abbildung  4.8)  ganz 
andere  Verlaufe  zeigen  kann,  obwohl  die  zu  verarbeitenden  Eingangsfolgen 
gleichen  Werten  im  M-Bereich  entsprechen.  Die  Abbildung  4.13  zeigt  den 
Verlauf  der  S-Funktion  bei  einem  traditionellen  komparatorischen  Codie- 
rer,  wahrend  die  Abbildung  4.14  den  Verlauf  bei  Verwendung  eines  tech- 
nisch  vorteilhafteren  Codierers  zeigt.  Damit  verhalt  sich  der  Automat  in 
beiden  Fallen  sehr  unterschiedlich.  Im  ersten  Fall  ist  der  Verlauf  fast  wie 
erwartet.  Demgegeniiber  sieht  der  Verlauf  im  letzten  Fall  fast  wie  eine 
Stufenfunktion  aus.  Dieses  Verhalten  konnte  beim  Training  des  Netzes  zu 
unerwarteten  Folgen  fiihren,  z.B.  zur  Divergenz  des  Trainings.  In  den  Spei- 
chergliedern  (ADDIE  und  INDIE)  werden  sequentielle  Codierer  verwendet, 
deren  Ausgang  (codierte  binare  Folge)  danach  direkt  einem  S-Automat  zu- 
gefiihrt  wird.  Aufgrund  der  starken  Streuung  in  der  Nahe  des  Ursprungs 
kann  das  Ausgangssignal  des  S-Automaten  total  verfalscht  werden.  Damit 
wird  die  Suchrichtung  vollig  falsch  berechnet. 

Theoretisch  soil  der  S-Automat  eine  0,5-Folge  liefern,  wenn  ihm  eine  0,5- 
Folge  zugefuhrt  wird.  Aber  eine  Abweichung  ist  in  der  Tat  immer  festzu- 
stellen,  weil  bei  der  Verarbeitung  mit  stochastischen  Rechenwerken  uberall 
stochastische  Streuungen  bestehen.  Es  soil  deshalb  weiter  untersucht  wer¬ 
den,  ob  die  urspriingliche  stochastische  Streuung  durch  die  Nichtlinearita- 
ten,  d.h.  die  S-  und  B-Automaten,  weiter  vergroftert  wird.  Dies  wird  im 
nachsten  Abschnitt  untersucht. 


4.2.2. 2  Ausbreitung  der  stochastischen  Streuung 

Das  Einbringen  von  Rauschen  in  den  Lernalgorithmus  ist  eine  bewahrte 
Technik,  um  beim  konventionellen  Algorithmus  zur  Verbesserung  der  Kon¬ 
vergenz  beizutragen.  Im  vorgestellten  Verfahren  ist  die  Existenz  der  sto¬ 
chastischen  Streuung  systemimmanent  und  beruht  auf  der  speziellen  Imple- 
mentierung.  Nach  der  Erlauterung  im  vorigen  Abschnitt  kann  die  Starke  der 
stochastischen  Streuung  beim  gleichzeitigen  Auftreten  beider  Einschrankun- 
gen,  d.h.  der  [0, 1]-Einschrankung  und  des  ^ -Mittelungs verfahrens ,  eine 
entscheidende  Rolle  fur  die  Konvergenz  des  Trainings  spielen.  Aus  diesem 
Grund  ist  es  notwendig,  die  Starke  der  Streuung  im  Verfahren  und  insbe- 
sondere  ihre  Ausbreitung  in  einem  MLN  zu  untersuchen. 


Eingangsgrofce 

BlockgroBe  fur  die  Decodierung:  1000  Bit 
Anzahl  der  Versuche  fur  jeden  realen  Wert :  6 
RUN=5 


Abb.  4.13:  Verlaufder  S-Funktion  mit  einem  komparatorischen  Codierer 


Fur  die  Untersuchung  ist  ein  Ma£  notig,  durch  das  die  Starke  der  Streuung 
gemessen  werden  kann.  Dafiir  werden  folgende  Grofien  in  der  nachstehenden 
Analyse  vereinbart: 

•  Durchschnittlicher  Mefefehler 

Sei  t  das  theoretische  Resultat  einer  Berechnung  und  n  die  Anzahl 
der  Versuche,  bei  denen  Mefiwerte  Xj  ( j  =  l,..rc)  fur  den  theoreti- 
schen  Wert  t  durch  ein  bestimmtes  stochastisches  Rechenwerk  gewon- 
nen  werden.  So  betragt  der  durchschnittliche  Mefifehler. 


£  = 


N 


j— i 


(4.15) 


Standardabweichung 

Sei  x  der  Mittelwert  der  Mefiwerte  Xj  {j  =  1,  ..n)  aus  n  Versuchen, 
dann  wird  eine  Standardabweichung  zum  Mittelwert  (nach  Kreyszig 
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Eingangsgrolle 

BlockgroBe  fur  die  Decodierung:  1000  Bit 
Anzahl  der  Versuche  fur  jeden  realen  Wert :  6 
RUN=5 


Abb.  4.14:  Verlauf  der  S-Funktion  mit  einem  sequentiellen  Codierer 


[29])  so  definiert: 


a  — 


\ 


ri 

3= 1 


(4.16) 


Offenbar  ist  obiges  MaiS  fiir  den  durchschnittlichen  Mefifehler  nicht  sonder- 
lich  fiir  eine  Nachbildung  in  Hardware  geeignet,  weil  der  theoretische  Wert 
t  nicht  zur  Verfiigung  steht.  In  einem  solchen  Fall  ergibt  aber  die  Standard- 
abweichung  ein  gutes  Mafi.  Fiir  eine  Software-Simulation,  die  eine  Nach¬ 
bildung  des  Verfahrens  in  Software  implementiert,  kann  beides  verwendet 
werden. 

Fur  die  Untersuchung  wird  ein  minimales  MLN  betrachtet,  das  in  der  Ab- 
bildung  4.15  gezeigt  wird.  Es  ist  ein  zweischichtiges  MLN  mit  nur  einem 
Signal-Eingang  und  einem  Neuron  je  Schicht.  Die  Gewichte  sind  auf  feste 
Werte  gelegt  und  das  Eingangssignal  andert  sich  im  W-Bereich  von  0,0  bis 
1,0  mit  einer  Schrittweite  von  0,002.  Jeder  Wert  wird  T  Takte  lang  am 
Netzeingang  angelegt  und  in  eine  binare  Folge  codiert.  Danach  wird  eine 
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Multiplikation  mit  dem  festen  Gewicht  durchgefiihrt  und  die  Resultatfolge 
dem  Neuron  (S-Automat)  zugefuhrt,  usw.  Bei  jedem  Eingangswert  wird 
dieser  Vorgang  n  mal  wiederholt,  um  ausreichend  Stichproben  zu  erhalten. 
Jede  Stichprobe  Xj  wird  durch  das  Summieren  iiber  T  Takte  hergestellt. 
Der  theoretische  Wert  t  lafit  sich  durch  die  Gleichungen  2.5  und  2.26  aus 
den  Abschnitten  2.2.2.2  und  2.3.3  berechnen,  und  zwar  ohne  Beriicksichti- 
gung  des  Rundungsfehlers.  An  vier  Stellen  wird  ein  Monitor  Af»  {i  =  1...4) 
eingerichtet,  durch  den  die  entsprechende  binare  Folge  beobachtet  werden 
kann. 


Abb.  4.15:  Schematische  Anordnung  zur  Untersuchung  der  Ausbreitung 
der  stochastischen  Streuung 

Es  werden  die  durchschnittlichen  MeEfehler  der  von  den  Monitoren  1-4  ge- 
mafe  Abbildung  4.16  beobachteten  Werte  berechnet  und  in  Abbildung  4.17 
im  Vergleich  zur  Standardabweichung  dargestellt.  Beim  ersten  ist  deuthch 
zu  sehen,  daft  sich  der  durchschnittliche  MeEfehler  der  Ausgangsfolge  des 
S~Automaten  vergroEert,  wenn  sich  der  Beobachtungspunkt  vom  Eingang 
entfernt.  Insbesondere  nimmt  der  durchschnittliche  Mefifehler  in  der  Nahe 
des  Wertes  0,5,  der  dem  Ursprung  im  M-Bereich  entspricht,  den  groEten 
Wert  an.  In  diesem  Bereich  befindet  sich  gerade  der  steil  ansteigende  Teil 
der  S-Funktion,  der  im  Laufe  des  Trainings  die  entscheidende  Rolle  spielt. 
Aber  die  stochastische  Streuung  in  dem  Bereich  kann  bis  zu  20%  groE  sein. 
Dies  konnte  dazu  fiihren,  daE  das  Training  in  diesem  Wertebereich  mehr 
zufallig  als  durch  den  Algorithmus  selbst  gesteuert  wird.  Je  mehr  Schich- 
ten  eine  binare  Folge  durchlaufen  muE,  umso  starker  ist  der  EmfluE  der 
stochastischen  Streuung  und  um  so  zufalliger  verlauft  das  Training.  Wei- 
tere  Simulationen  zeigen  auch,  daE  die  Erhohung  der  Taktanzahl  oder  des 
Stichprobenumfangs  keine  nennenswerte  Verbessenmg  fiir  die  GroEenord- 
nung  der  stochastischen  Streuung  bietet.  Weiterhin  wird  die  stochastische 
Streuung  noch  groEer,  wenn  sich  die  Steilheit  der  S-Funktion,  namhch  der 
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Eingangswert  im  W-Bereich 

Ausbreitung  der  stoohastischen  Streuungen  bei 
einem  Beispiel  mit  sequentiellem  Codierer 
W1=1.0  und  W2=0.5  fur  beide  Einheiten 
TaktanzahNIOOO ,  RUN=5,  Stichprobenumfang  30 

Abb .  4.16:  Ausbreitung  des  durchschnittlichen  Meftfehlers  in  einem  MLN 
mit  stocbastischen  Rechenwerken 

Wert  des  Parameters  RUN,  erhoht  (siehe  Abbildung  4.18).  Im  zweiten  Fall 
ist  zu  sehen,  da£  die  Standardabweichung  zwar  nicht  durch  mehrere  hinter- 
einandergeschaltete  S-Automaten  vergrofiert  wird,  aber  sie  kann  noch  bis 
zu  15%  grofi  sein.  In  dlesem  Fall  ist  die  Nichtlinearitat  des  Neurons  allein 
die  Hauptursache  der  VergroSerung  der  Standardabweichung.  Logischer- 
weise  ist  die  Standardabweichung  ein  geeignetes  Mafi  fur  die  Untersuchung, 
weil  nur  der  Mittelwert  x  in  die  Datenverarbeitung  einbezogen  wird.  In 
der  Tat  spielt  der  theoretische  Wert  t  im  Training  iiberhaupt  keine  Rolle. 
Der  beim  Netzausgang  fur  den  Vergleich  zwischen  den  Ziel-  und  Netzausga- 
ben  verwendete  Wert  ist  der  Mittelwert,  der  durch  Summierung  der  Einsen 
aus  der  entsprechenden  Bitfolge  gewonnen  wird.  Wenn  nur  die  Standard¬ 
abweichung  in  die  Betrachtung  miteinbezogen  wird,  kann  die  Streuung  bei 
steilerer  S-Funktion  doch  noch  sehr  grofi  werden  (siehe  Abbildung  4.19). 

In  den  obigen  Abbildungen  werden  Gewichte  w\  und  W2  zur  besseren  Vi- 
sualisierung  der  Ergebnisse  fur  beide  Einheiten  auf  die  Werte  1,0  und  0,5 
festgelegt.  Dabei  zeigt  sich,  dafi  die  Standardabweichung  dann  am  grofi- 
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Eingangswert  im  W-Bereich 

Ausbreitung  der  stochastischen  Streuungen  bei 
einem  Beispiel  mit  sequentiellem  Codierer 
W1=1 .0  und  W2=0.5  fur  beide  Einheiten 
Taktanzahl:  1000,  RUN=5,  Stichprobenumfang:  30 

Abb.  4.17:  Ausbreitung  der  Standardabweichung  in  einem  MLN  mit  sto¬ 
chastischen  Rechenwerken 


ten  ist,  wenn  der  Eingang  eines  S-Automaten  eine  0,5-Folge  ist.  Wenn  die 
Gewichte  auf  andere  Werte  festgelegt  werden,  ist  die  Standardabweichung 
dann  am  groftten,  wenn  der  Term  ^2wi  1^2x2  1^+2  —  gleich  0,0  (bei  der 
Betrachtung  im  M-Bereich)  ist. 

In  den  vorherigen  Abschnitten  wurde  bereits  festgestellt,  dafi  das  gleichzeiti- 
ge  Auftreten  der  [0, 1]-Einschrankung  und  des  i-Mittelungsverfahrens  eine 
stark  negative  Auswirkung  auf  die  Konvergenz  des  Trainings  ausiiben  kann 
und  dafi  dies  nur  durch  eine  steilere  Aktivierungsfunktion  der  Neuronen 
kompensiert  werden  kann.  Aus  den  Ergebnissen  dieses  Abschmtts  wird  die 
Erkenntnis  gewonnen,  dafi  bei  steilerer  S— Funktion  die  Ausgabe  des  Neurons 
sehr  staxke  Streuungen  enthalten  kann,  die  das  Training  unter  gewissen  Um- 
standen  zur  Divergenz  bringen  konnen,  weii  dann  das  Training  allein  durch 
stochastische  Streuung  kontrolliert  wird.  Dies  fiihrt  zu  einander  widerspre- 
chenden  Forderungen:  Fiir  die  Kompensation  der  Emschrankimgen  wird  ei- 
nerseits  eine  steilere  S-Funktion  gefordert.  Anderseits  ist  die  stochastische 


4.2.  Auswirkungen  a uf  die  Konvergenz  73 


Eingangswert  im  W-Bereich 
Stichprobenumfang:  30,  Taktanzahl:  1000,  RUN=8 

Abb,  4.18:  Ausbreitung  des  durchscbnittlichen  Feblers  in  einem  MLN  mit 
einer  sebr  steilen  S~Fanktion 

Streuung  um  so  starker  und  die  Runlangenverteilung  der  Ausgangsfolge  um 
so  schlechter,  je  steiler  die  S-Funktion  ist.  Dieser  Widerspruch  konnte  zu 
einem  groften  Hindernis  werden,  wenn  das  Verfahren  in  grofieren  Netzen 
zum  Einsatz  kommen  soli.  Denn  die  Anzahl  der  Eingange  jedes  Neurons 
wachst  einerseits  mit  der  Netzgrofte,  andererseits  werden  dann  die  negativen 
Auswirkungen  des  ^-Mittelungsverfahrens  ebenfalls  grofier.  Das  fiihrt  zu 
einer  noch  steileren  Aktivierungsfunktion.  Wird  jeder  iiber  die  zu  einem 
Neuron  fuhrende  Verbindung  iibertragene  Wert  Xi  als  eine  im  Bereich  [0, 1] 
liegende  Zufallsvariable  betrachtet,  so  liefert  der  Ausgang  des  Multiplexers 
den  Stichprobenmittelwert  x  der  Zufallsvariablen  X  =  Aus 

statistischer  Sicht  wird  sich  dieser  Wert  x  dem  Wert  0,5  nahern,  wenn  N 
grofi  wird  (AT  >  30  [29]).  Das  bedeutet,  daft  die  Eingangsfolge  jedes  Neurons 
eine  quasi  0,5-Folge  sein  wird,  wenn  nur  N  groft  genug  ist. 

4. 2.2.3  Gegenstrom-Verfahren 

Bei  der  konventionellen  Methode  wird  das  Training  in  zwei  Phasen  geteilt, 
namlich  die  sogenannte  Arbeitsphase  und  die  Lemphase.  In  der  Arbeits- 
phase  wird  die  Neuronenausgangsaktivitat  durch  Anlegen  eines  Eingangs- 
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Eingangswert  im  W-Bereich 

Beisplel  mit  sequentiellem  Codierer 
W1=1.0  und  W2=0.5fiur  beide  Einheiten 
Taktanzahl:  1000,  Stichprobenumfang:  30 


Abb .  4.19:  Ausbreitung  der  Standardabweichung  bei  unterschiedlicber 
Steilheit  des  S-Automaten 


vektors  aus  dem  Trainingsmustervorrat  hergestellt,  wahrend  eine  Gewichts- 
modifikation  durch  Zuriickgreifen  der  Neuronenausgangsaktivitat  aus  der 
vorangegangenen  Arbeitsphase  nur  in  der  Lernphase  stattfindet.  Daher  sind 
zahlreiche  Zwischenwerte  zu  speichern,  die  selbstverstandlich  zusatzlichen 
Speicherbedarf  erfordem.  Aus  diesem  Grund  wurde  in  [51]  ein  sogenann- 
tes  Gegenstrom-Verfahren  angewendet,  bei  dem  Arbeits-  und  Lernphase 
gleichzeitig  stattfinden.  Auf  diese  Weise  ist  das  Speichern  der  Zwischen¬ 
werte  nicht  mehr  notig;  andererseits  entspricht  das  Training  nicht  mehr 
der  aus  der  Literatur  iiber  neuronale  Netze  bekannten  Online-Variante  des 
Backpropagation-Verfahrens.  Ob  eine  solche  Abweichung  die  Konvergenz 
des  Netzes  beim  Training  stark  beeinflussen  kann,  soil  intensiv  untersucht 
werden. 

Tm  Gegensatz  zu  anderen  Einschrankungen,  die  getrennt  von  alien  anderen 
Faktoren  allein  untersucht  werden,  kann  die  Auswirkung  des  Gegenstrom- 
Verfahren  nur  beim  Betrieb  des  ganzen  Netzes  beobachtet  werden.  Um  de- 
ren  Auswirkung  auf  die  Konvergenz  des  Trainings  zu  studieren,  ware  es  die 
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beste  Methode,  die  Trainingsergebnisse  vom  Gegenstrom-Verfahren  und  der 
bekannten  Online-Variante  des  Backpropagation-Verfahrens  zu  vergleichen. 
Aber  man  ist  zu  diesem  Zeitpunkt  noch  nicht  in  der  Lage,  das  vorhandene 
Netz,  das  auf  Bitstrom  basiert,  mit  einer  Online-Lernstrategie  zu  betrei- 
ben,  weil  die  vorhandene  Architektur  des  Neurons  nur  fiir  das  Gegenstrom- 
Verfahren  geeignet  ist.  Um  dieses  Vorhaben  zu  erreichen,  ist  ein  Umbau 
des  Neurons  notig.  Aus  diesem  Grund  wird  die  wesentliche  Untersuchung 
und  Diskussion  in  der  Tat  erst  in  den  kommenden  Abschnitten  durchge- 
fiihrt,  weil  die  Modification  der  Struktur  des  Neurons  und  der  speichernden 
Glieder  als  Gegenmafinahmen  erst  dort  vorgenommen  wird. 

4.3  Gegenmafinahmen 

Die  Analysen  in  den  vorherigen  Abschnitten  haben  gezeigt,  da£  die  [0, 1]- 
Einschrankung  und  das  ^ -Mittelungs verfahren  einerseits  die  Konvergenz 
des  Trainings  zwar  stark  beeinflussen,  andererseits  aber  mit  dem  vorgestell- 
ten  Verfahren  fest  verbunden  sind.  Zur  Bekampfung  der  daraus  resultieren- 
den  negativen  Einfliisse  ist  eine  sehr  steile  Aktivierungsfunktion  erforderlich. 
Die  fiir  das  vorgestellte  Verfahren  entwickelten  Neuronen  konnen  diese  For- 
derung  zwar  erfiillen,  jedoch  entstehen  dadurch  bei  grofteren  Netzen  grofie 
stochastische  Streuungen  und  schlechte  Runlangencharakteristiken  der  Aus- 
gangsfolgen.  Unter  diesen  Umstanden  gibt  es  nun  zwei  Moglichkeiten,  die 
negativen  Auswirkungen  der  genannten  Einschrankungen  zu  beseitigen: 

•  Begrenzung  der  stochastischen  Streuungen  auf  eine  bestimmte  Gro- 
fienordnung  durch  geeignete  elektrotechnische  Glieder,  wie  z.  B.  Fil¬ 
ter. 

•  Einfiihren  andersartiger  Neuronen,  die  verbesserte  Eigenschaften  be- 
sitzen,  d.h.  giinstigere  Runlangencharakteristik  und  geringere  stocha¬ 
stische  Streuung  der  Ausgangsfolgen. 

4.3.1  Online- Training  statt  Gegenstrom-Verfahren 

Aus  Einsparungsgriinden  bei  der  Chipflache  wird  in  der  bisher  vorgeschlage- 
nen  Hardware-Realisierung  das  sogenannte  Gegenstrom-Verfahren  verwen- 
det,  welches  die  Stationaritatsbedingung  fiir  die  Codierung  verletzen  konnte. 
Au£erdem  ist  das  Training  nun  nicht  mehr  echtes  Online-Training ,  weil  die 
Gewichte  wahrend  des  Anlegens  eines  Musters  nicht  konstant  bleiben.  Dies 
konnte  beim  Training  zu  einigen  unbekannten  Nebenwirkungen  fiihren,  zu- 
mindest  ist  diese  Art  von  Training  in  der  Literatur  bisher  nicht  bekannt. 
Um  derartige  Nebenwirkungen  von  anderen  zu  unterscheiden,  erscheint  es 
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sinnvoll,  fur  die  weitere  Analyse  statt  des  Gegenstrom-Verfahrens  das  tra- 
ditionelle  Online-Training  zu  verwenden.  Damit  kann  einerseits  ein  Ver- 
gleich  zur  traditionellen  Methode  durchgefuhrt  und  andererseits  der  Grund 
fiir  die  Divergenz  des  Trainings  bei  einigen  Beispielen  besser  festgestellt 
werden.  Verwendung  des  Online— Trainings  ist  nicht  nur  bei  taktgenau- 
er  Software-Simulation,  sondern  auch  bei  einer  Hardware— Implementierung 
machbar,  sogar  imter  gewissen  Umstanden  ohne  zusatzlichen  Platzbedarf 
auf  dem  Chip.  Nach  den  Ergebnissen  aus  dem  vorangegangenen  Kapitel 
ist  es  fur  die  Konvergenz  des  Trainings  nicht  entscheidend,  ob  ein  Netz  mit 
oder  ohne  ADDIEs  betrieben  wird  (siehe  Abbildungen  3.7  und  3.8).  Aus 
diesem  Grund  konnte  die  Chipflache  des  ADDIE-Zahlers  fiir  einen  neuen 
INDIE-Zahler,  namlich  INDIE1,  zur  Verfiigung  stehen.  INDIE  1  ist  nur  fur 
die  Gewichtsmodifikation  zustandig.  Der  bisherige  INDIE-Zahler,  nun  IN- 
DIEO,  kiimmert  sich  dagegen  um  alle  Gewichtungen.  Nach  einer  gewissen 
Anzahl  von  Takten,  wahrend  der  ein  Musterpaax  an  den  Netzeingang  und 
-ausgang  angelegt  wird,  wird  der  Wert  des  INDIEl-Zahlers  in  den  INDIEO- 
Zahler  kopiert.  Dann  findet  das  Anlegen  eines  neuen  Muster-Paares  statt. 
Was  in  diesem  Fall  an  Chipflache  zusatzlich  notwendig  ist,  beschrankt  sich 
auf  zusatzliche  Leitungen  zwischen  INDIEO  und  INDIE1,  welche  die  Wer- 
teiibertragung  zwischen  beiden  Zahlern  iibemehmen.  Die  Abbildung  4.20 
zeigt  ein  Blockschema  des  modifizierten  Synapsenelements.  Durch  einen 
Umbau  des  Synapsenelements  la£t  sich  auch  einfach  das  Batch- Verfahren 
verwenden,  indem  die  Werteiibertragung  durch  ein  Steuerungssignal  ledig- 
lich  nach  einer  ganzen  Epoche  erlaubt  wird. 

Obige  Uberlegungen  werden  durch  Software-Simulationen  bestatigt,  indem 
das  Netz  unter  den  gleichen  Umstanden  (d.h.  gleiche  Aufgabe,  gleiche  Lern- 
parameter  usw.)  mit  unterschiedlichen  Lernstrategien,  namlich  Gegenstrom- 
Verfahren,  Online-Training  und  Batch— Verfahren,  trainiert  wird.  Die  Ab¬ 
bildung  4.21  zeigt  das  Ergebnis  fiir  das  XOR-Problem.  In  alien  Fallen 
gelangt  das  Training  zur  Konvergenz.  Das  Batch-Verfahren  benotigt  fiir 
das  Konvergieren  mehr  Zeit,  weil  die  Gewichtsmodifikation  nur  einmal  je 
Epoche  stattfindet.  Aufierdem  wird  die  optimale  Abstiegsrichtung  wegen 
der  starken  stochastischen  Streuung  meist  verfalscht.  Aus  dieser  Sicht  ist 
das  Online-Training  sogar  vorteilhafter.  Das  Verhalten  des  Trainings  ist 
beim  Gegenstrom-Verfahren  imd  beim  Online-Training  fast  identisch.  Auf 
Grund  der  Ergebnisse  vieler  Software-Simulationen  kann  als  Schlufifolge- 
rung  gezogen  werden,  da6  die  Verwendung  des  Gegenstrom-Verfahrens  kei- 
ne  negativen  Auswirkungen  auf  die  Konvergenz  des  Verfahrens  hat.  Deshalb 
werden  alle  nachfolgenden  Beispiele  mit  dem  Gegenstrom-Verfahren  bear- 
beitet,  obwohl  das  urspriingliche  Online-Training  sowohl  per  Software  als 
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Kontrollsignal jur  die  Zahlerwert-Obertragung 


Abb .  4.20:  Blockschema  des  modifizierten  Synapsenelements 


auch  in  Hardware  mit  nur  unwesentlich  erhohtem  Aufwand  implementiert 
werden  konnte. 

4.3.2  ADDIE  als  Tiefpaftfilter  zwischen 
Neuronenschichten 

Nach  der  Analyse  im  Abschnitt  4.2.2.2  liefert  das  verwendete  Neuron  eine 
Ausgangsfolge  mit  starkem  Rauschen,  wenn  seine  Eingangsfolge  einen  Wert 
in  der  Nahe  des  Ursprungs  reprasentiert.  Je  steiler  seine  Aktivierungsfunkti- 
on  ist,  umso  starker  ist  diese  Nebenwirkung,  die  das  Training  zur  Divergenz 
bringen  kann.  Denn  das  Training  wird  nun  statt  durch  den  Lemalgorith- 
mus,  vorwiegend  durch  Zufall  kontrolliert.  Im  laufenden  Abschnitt  wird 
beschrieben,  wie  diese  Nebenwirkung  in  gewissem  Umfang  unterdriickt  wer¬ 
den  kann,  damit  der  Lernalgorithmus  beim  Training  wieder  die  Hauptrolle 
iibernimmt. 

Im  Bereich  der  Elektrotechnik  ist  das  Filtem  eine  bekannte,  ausgereiffce  und 
effektive  Methode  zur  Verminderung  von  Rauschen.  Diese  Technik  kann  hier 
zum  Einsatz  kommen,  wenn  ein  hierfur  geeignetes  Filter  gefunden  werden 
kann.  Aufier  allgemeinen  Eigenschaften  sollte  das  Filter 

•  leicht  in  das  vorhandene  Verfahren  integrierbar  sein, 
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Anzahl  Epochen 

2-2-1 -Netz  fur  die  XOR-Aufgabe 
RUN:  5  RUNAB:  3  TaktanzahkIOOO 
IND1:12  IND0:14  ADD:  14 

Abb.  4.21:  Konvergenz-Vergleich  zwiscben  Gegenstrom-Verfahren, 
Online-Training  und  Batch-Verfabren 

•  fur  seine  Iraplementierung  moglichst  wenig  Chipflache  belegen, 

•  die  Eigenschaft  der  Ausgangsfolge  des  S-Automaten  nicht  weiter  ver- 
schlechtern. 

Aus  diesem  Grnnd  kommt  als  Filter  das  ADDIE  in  Betracht,  weil  es  ein 
digitales  TiefpaEfilter  (TPF)  mit  exponentieller  Stofiantwort  darstellt  und 
so  die  obigen  Bedingungen  erfiillen  kann.  Lafit  sich  ein  ADDIE  direkt  an  den 
Ausgang  eines  S-Automaten  anschliefien,  fungiert  es  wie  ein  Tiefpafcfilter, 
welches  das  Rauschen  der  Ausgangsfolge  des  S-Automaten  vermindert.  Die 
Abbildung  4.22  zeigt  den  Verlauf  des  Ausgangssignals  des  S-Automaten  bei 
Verwendung  der  hier  erlauterten  Filtertechnik. 

Zum  Vergleich  wird  das  Ergebnis  ohne  ADDIE  als  TPF  unter  sonst  glei- 
chen  Randbedingungen  in  der  Abbildung  4.23  gezeigt.  Es  ist  deutlich  zu 
sehen,  dafi  die  stochastische  Streuung,  insbesondere  in  der  Nahe  des  Ur- 
sprungs,  stark  unterdruckt  wird.  Eine  weitere  ermutigende  Eigenschaft  ist, 
dalS  sich  die  stochastische  Streuung  nicht  vergrofiert,  wenn  die  entsprechen- 
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Eingangssignal 


Blockgrofte  fur  die  Decodierung:  1000  Bit 
Anzahl  der  Versuche  fur  jeden  reellen  Wert :  1 
ADD=14  alsTPF 


Abb.  4.22 :  Verlauf  des  mit  einem  ADDIE  gefilterten  Ausgangssignals  des 
S-Automaten 


de  S-Funktion  steiler  wird,  was  bei  dem  Verfahren  ohne  TPF  der  Fall  ist. 

Noch  ein  anderer  Vorteil  lafit  sich  damit  gewinnen,  namlich  die  Verbesserung 
der  Runlangen-Verteilung  der  Ausgangsfolge.  Dank  des  DSC  im  ADDIE 
wird  die  erwartete  Runlangencharakteristik  der  Bitfolge  nach  der  Codie- 
rung  wieder  hergestellt.  Abbildung  4.24  zeigt  die  Runlangen-Verteilung 
der  Ausgangsfolge,  wenn  eine  0,5-Folge  am  Eingang  des  S-Automaten  an- 
gelegt  wird.  Eine  solche  Runlangen-Verteilung  entspricht  einer  m-Sequenz. 

Zur  Implementierung  dieser  Technik  wird  ein  geringer  Umbau  der  vorhan- 
denen  Synapse  notwendig,  der  allerdings  keine  zusatzliche  Chipflache  erfor- 
dert.  Wie  in  den  vorherigen  Abschnitten  erlautert,  hat  das  als  Momentum- 
Konstante  eingesetzte  ADDIE  wenig  Einfiufi  auf  die  Konvergenz  des  Verfah- 
rens.  So  kann  es  fur  den  Zweck  des  TPF  weiter  verwendet  werden,  und  zwar 
durch  einen  Umbau  der  Verbindungsleitung  in  der  Synapse.  Die  Abbildung 
4.25  zeigt  das  entsprechende  Blockschema. 
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0,0^ 


-1,0  -0,8  -0,6  -0,4  -0,2  0,0  0,2  0,4  0,6  0,8  1,0 


Eingangssignal 

Blockgrolie  fur  die  Decodierung:  1000  Bit 
Anzahl  der  Versuche  fur  jeden  reeilen  Wert :  1 
RUN=5,  Ohne  ADDIE  als  TPF 


Abb.  4.23:  Verlauf  des  Ausgangssignals  des  S-Automaten  ohne  TPF 


Die  Einsetzbarkeit  des  ADDIE  als  TPF  ist  begrenzt,  weil  das  ADDIE  eine 
Anlaufzeit  benotigt,  um  sich  an  den  neuen  Eingangswert  anzupassen.  In 
der  Schicht,  in  der  das  Netz  den  Zugang  zur  Aufienwelt  hat,  andert  sich 
das  Eingangssignal  beim  Wechseln  der  TVainingsmuster  meistens  nicht  kon- 
tinuierlich,  wie  es  z.B.  beim  Training  fur  das  XOR— Problem  der  Fall  ist.  In 
diesem  Fall  darf  das  TPF  nur  in  den  Synapsen,  die  zwischen  der  verborgenen 
und  der  Ausgangsschicht  liegen,  eingesetzt  werden2.  Obwohl  die  Verande- 
rung  des  Signals  zwischen  Neuronenschichten  wegen  des  Musterwechsels  am 
Netzeingang  nicht  kontinuierlich  erfolgt,  ist  sie  jedoch  viel  kleiner  als  zwi¬ 
schen  Eingangs-  und  verborgener  Schicht.  An  solche  kleinen  Anderungen 
Vann  sich  das  ADDIE  schnell  genug  anpassen.  Aus  dieser  Sicht  kann  die 
Nebenwirkung  der  Anlaufzeit  des  ADDIE  vemachlassigt  werden.  Ein  an- 
derer  zu  beachtender  Punkt  ist,  dafi  das  TPF,  sofern  ein  sequentieller  DSC 
in  den  Synapsen  eingesetzt  wird,  nichts  hilft,  weil  sich  der  S-Automat  in 
diesem  Fall  anders  verhalt  (siehe  Abschnitt  4.2.2.1).  Wie  der  sequentielle 


2  Falls  von  einem  zweischichtigen  Netz  die  Rede  ist 
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0  1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20 


Runlangen-Verteilung  der  Ausgangsfolge  eines 
14-Bit-ADDIE  hinter  einem  Neuron  mit  einer 
0,5-Folge  als  Eingang 


Abb.  4.24:  Runlangen-Verteilung  der  Ausgangsfolge  eines  ADDIE  als 
TPF  zwischen  Neuronenschichten 


DSC  trotzdem  ohne  diese  Nebenwirkung  angewendet  werden  kann,  soil  im 
folgenden  besprochen  werden. 

Zura  Testen  wird  diese  Technik  zunachst  in  dem  minimalen  MLN  gemafi  Ab- 
bildung  4.15  angewendet,  damit  ihre  Auswirkung  durch  Kontrolle  der  Aus- 
breitung  der  stochastischen  Streuung  untersucht  werden  kann.  Aufgrund 
ihrer  Implementierung  in  der  Synapse  und  wegen  der  Anlaufzeit  ka.nn  sie 
nur  zwischen  beiden  Neuronen  eingesetzt  werden,  und  zwar  im  Gewicht  W\ 
der  zweiten  Einheit.  Dadurch  ist  ihre  Auswirkung  zur  Unterdriickung  der 
Ausbreitung  der  stochastischen  Streuung  nur  im  Monitor  M3  (siehe  Abbil- 
dung  4.15)  deutlich  zu  sehen.  Die  Abbildung  4.26  zeigt  das  Ergebnis  der 
Software-Simulation.  Man  sieht  deutlich,  da£  die  Standardabweichung  im 
Fall  mit  TPF  viel  kleiner  ist  als  im  Fall  ohne  TPF.  Ihre  Grofienordnung  ist 
fast  wie  bei  einer  normalen  Codierung.  Damit  konnte  behauptet  werden, 
dafi  sich  die  Starke  der  stochastischen  Streuung  im  Vergleich  zur  codierungs- 
bedingten  Streuung  durch  ihre  Ausbreitung  nicht  wesentlich  vergrofiert. 
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Fehlereingang  Akthitatselngang 


|  ADDIE  a  Is  Impulsterm 


Fehlereingang  *  Aktivitatseingang 


ADDIE  als  TPF 


Abb .  4.25:  Umbau  der  Synapse  zur  Verwendung  ernes  ADDIE  als  TPF 


Nun  wird  das  TPF  bei  einer  kleinen  Trainingsaufgabe  eingesetzt,  urn  seine 
Tauglichkeit  in  der  praktischen  Welt  zu  untersuchen.  Dafur  wird  wieder  das 
XOE-Problem  herangezogen.  Wie  immer  ist  ein  2-2- 1-Net z  fiir  diese  Auf- 
gabe  eingerichtet  und  nur  die  Synapsen  zwischen  der  verborgenen  und  der 
Ausgangsschicht  werden  fiir  die  Anwendung  des  TPF  umgebaut  (siehe  Ab- 
bildung  4.25).  Das  Ergebnis  der  Software-Simulation  ist  in  Abbildung  4.27 
dargestellt.  Der  Einsatz  des  TPF  zeigt  einigen  Zeitgewinn  beim  Training 
gegenuber  dem  Fall  ohne  TPF.  Ein  weiterer  Vorteil  ist,  dafi  bei  sehr  steiler 
S-Funktion  (grofiem  Wert  von  RUN)  das  Training  unter  Einsatz  eines  TPF 
immer  noch  konvergiert.  Ohne  TPF  war  das  nicht  der  Fall.  Diese  Eigen- 
schaft  ist  besonders  wichtig  fur  grofie  Netze,  bei  denen  steilere  S-Funktionen 
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fiir  die  Kompensation  des  [-^-Problems  erforderlich  sind.  Ohne  TPF  liefert 
eine  steile  S-Fiinktion  meistens  auch  sehr  starkes  Rauschen,  besonders  in 
der  Nahe  des  Ursprungs  (im  M-Bereich). 


Eingangswert  im  W-Bereich 
Sequentieller  Codierer ,  w1=1,0  und  w2=0,5 
Stichprobenumfang:  30,  Taktanzahl:  1000,  RUN=5 


Abb .  4.26:  Auswirkung  des  Einsatzes  des  TPF  in  einem  MLN 


0  500  1000  1500  2000 

0,5 


0,4 


0,3 


0,2 


0,1 

0  500  1000  1500  2000’° 

Anzahl  Epochen 

2-2-1 -Netz,  IND=12,  ADD=14,  Taktanzahl:  1000 


Abb.  4.27:  Einsatz  des  TPF  fiir  die  XOR-Aufgabe 
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4.3.3  Einsatz  eines  modifizierten  Neurons 

Die  gerade  erlauterten  Mafinahmen  im  Zusammenhang  mit  Filterwirkungen 
nehmen  keine  zusatzliche  Chipflache  in  Anspruch,  haben  aber  einige  posi¬ 
tive  Wirkung  gezeigt.  Jedoch  ist  die  Wirkung  entweder  relativ  gering  Oder 
ihre  Einsatzmoglichkeit  ist  begrenzt.  Deshalb  wird  versucht,  das  vorhande- 
ne  Neuron  durch  ein  modifiziertes  Neuron  zu  ersetzen,  welches  ebenfalls  eine 
S-formige  Aktivierungsfunktion  liefert,  aber  bessere  Eigenschaften  besitzt 
als  zuvor.  Aufcerdem  soli  es  sich  leicht  in  das  vorhandene  Verfahren  inte- 
grieren  lassen  und  keine  zusatzlichen  Parameter  fiir  das  Training  erfordern. 
Grundlage  dieses  Neurons  ist  ein  Vorschlag  von  Riibel  [56].  Das  zugehorige 
Blockschema  ist  in  Abbildung  4.28  dargestellt.  Wesentliche  Bestandteile 
sind  ein  Schieberegister,  das  Rn  Bit  lang  ist,  und  ein  Komparator,  der  die 
Anzahl  von  Einsen  im  Schieberegister  mit  einer  Schwelle  Rt  vergleicht.  Wird 
diese  Anzahl  grower  als  die  Schwelle,  wird  eine  Eins  ausgegeben,  andernfalls 
eine  Null.  Auf  dieser  Weise  wird  eine  S-formige  Aktivierungsfunktion  er- 
zeugt. 


SRR  Bit) 


Abb.  4.28:  Blockschema  nach  dem  Vorschlag  von  Riibel  [56] 


4.3.3. 1  Theoretisches  Modell  und  Kennlinie 

Sei  p  die  Wahrscheinlichkeit,  die  von  einer  binaren  Eingangsfolge  Bp  reprar 
sentiert  wird,  r  die  Anzahl  der  Einsen  im  Schieberegister  SR,  Rn  die  Lange 
des  Schieberegisters  SR  (in  Bit)  und  Rt  die  Schwelle.  r  ist  offensichtlich 
eine  Zufallsvariable.  Wird  Bp  eine  endlose  Bemoulli-Folge,  dann  besitzt  r 
eine  Binomialverteilung  mit  den  Parametern  Rn  und  p.  Das  heifit  (siehe 
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Definition  in  [15]):  r  ~  Bi(Rn\p).  So  laftt  sich  die  Wahrscheinlichkeit  P, 
daft  r  gleich  einer  ganzen  Zahl  k  ist,  berechnen: 

P  a  P(r  =  k)  =  (1  -  p)^-k  (4.17) 

Rn  G  {1, 2, 3, k  €  {0, 1,  ...U„};  0  <  p  <  1 

Dadurch  ist  die  Wahrscheinlichkeit  o,  daft  eine  Eins  am  Ausgang  der  obigen 
Schaltung  eintritt,  ebenfalls  leicht  zu  berechnen: 

Rn  R 

o  =  P(T>Rt)=  £  P(t  =  fc)  =  Y'  (4.18) 

k=Rt+l  ^  ' 

Rt  €  {0, 1,2,  ...jRn} 

Dies  ergibt  genau  eine  S-formige  Funktion  von  p,  welche  den  in  der  Abbil- 
dung  4.29  gezeigten  Kennlinien  zu  unterschiedlichen  Werten  von  Rn  ent- 
spricht.  Je  grofter  die  Schwelle  Rt  ist,  desto  weiter  nach  rechts  schiebt  sich 
die  S-Kurve  (siehe  Teil  A  in  der  Abbildung  4.29);  je  langer  das  Schiebe- 
register  ist,  umso  steiler  ist  die  erzeugte  S-Funktion  (siehe  Teil  B  in  der 
Abbildung  4.29).  Durch  viele  Simulationen  wurde  festgestellt,  daft  eine 
sigmoid-ahnliche  Funktion  erzeugt  wird,  wenn  die  Lange  Rn  des  Schiebere- 
gisters  und  die  Schwelle  Rt  folgende  Bedingung  erfiillen: 


Rn  =  2Rt  -  1  (4.19) 

Kennlinien  in  Abbildung  4.29  sind  auf  Basis  der  Erfullung  dieser  empiri- 
schen  Gleichimg  erzeugt  worden.  Dadurch  wird  nur  ein  Parameter  fur  die 
Bestimmung  der  neuartigen  S-Funktion  notwendig.  In  den  weiteren  Kapi- 
teln  dieser  Arbeit  wird  diese  empirische  Gleichung  verwendet.  Aus  diesem 
Grund  wird  die  Lange  des  Schieberegisters  immer  als  ungerade  ganze  Zahl 
gefiihrt,  so  daft  die  S-Funktion  zum  Punkt  (0, 5)  symmetrisch  wird. 

4.3.3. 2  Implementierung  des  modifizierten  Neurons 

Wie  erlautert,  sind  die  wesentlichen  Komponenten  des  modifizierten  Neu¬ 
rons  das  Schieberegister  und  der  Komparator,  die  natiirlich  eine  bestimmte 
Chipflache  in  Anspruch  nehmen  werden.  Das  Schieberegister  sollte  lang 
genug  sein  (32  Bit  oder  64  Bit),  so  daft  Rn  als  Lernparameter  in  einem 
sinnvollen  Wertebereich  eingestellt  werden  kann.  Je  nach  der  Grofte  von  Rn 
wird  das  ganze  Schieberegister  oder  ein  Teil  davon  fur  das  Zahlen  der  ein- 
tretenden  Einsen  gebraucht.  Der  wirklich  benotigte  Teil  wird  als  aktueller 


Ausgangsgrolie  AusgangsgroRe 
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EingangsgroG-e 

B 

Abb.  4.29:  Kennlinien  der  altemativen  S-Funktion  mit  unterscbiedlichen 
Parameter n 


Bereich  bezeichnet.  Fur  die  Implementierung  der  Komparatoren  kann  ein 
Zahler  verwendet  werden,  der  ein  Bit  langer  als  die  Halfte  des  Schieberegi- 
sters  sein  soli.  Der  Zahler  wird  um  Eins  inkrementiert  oder  dekrementiert, 
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wenn  eine  Eins  in  den  oder  aus  dem  aktuellen  Bereich  des  Schieberegisters 
geschoben  wird.  Wenn  der  Zahler  vorher  mit  einem  gewissen  Wert,  je  nach 
der  Gro£e  der  SchweUe  Rt,  geladen  wird,  dann  kann  das  Uberlauf-Bit  des 
Zahlers  als  Ausgang  des  Neurons  dienen. 


A 


Abb .  4.30:  Experimentell  ermittelter  Verlauf  der  aJtemativen  S-Funktion 
fur  verschiedene  Werte  des  Parameters  Rn 
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Nach  diesem  Schema  wurden  Software-Simulationen  durchgefuhrt,  deren 
Ergebnisse  in  der  Abbildung  4.30  gezeigt  werden.  Die  Testbedingung  hier  ist 
dieselbe  wie  in  Abschnitt  2.3.3.  Das  heifit:  In  der  Darstellung  wurden  1000 
Punkte  mit  gleichem  Abstand  im  Intervall  [—1, 1]  abgetastet  und  zu  je  einer 
Bitfolge  codiert,  und  die  Ausgaben  der  Automaten  mit  unterschiedlichen 
Werten  von  Rn  wurden  dann  in  Blocken  von  1000  Bit  decodiert.  Fur  jeden 
Punkt  auf  der  Achse  des  Eingangssignals  wird  der  gleiche  Vorgang  dabei 
sechsmal  wiederholt,  und  alle  sechs  Ausgabewerte  der  S-Funktion  werden 
dann  gemittelt  und  als  ein  Punkt  in  der  Kurve  aufgetragen. 

Verglichen  mit  der  Abbildung  2.8  ist  der  Verlauf  der  altemativen  S-Funktion 
deutlich  verbessert  und  fast  identisch  mit  einer  konventionellen  Sigmoid- 
funktion  der  Steilheit  /i=8,  wenn  der  Parameter  Rn  gleich  33  Bit  ist  (siehe 
A  in  der  Abbildung  4.30).  Unter  Verwendung  eines  sequentiellen  Codierers 
andert  sich  der  Verlauf  nicht  sonderlich,  wird  allerdings  steiler.  Trotz  der 
gro£en  Steilheit  sind  die  starken  Streuungen  in  der  Nahe  des  Ursprungs  nun 
nahezu  verschwunden  (siehe  B  in  der  Abbildung  4.30).  Dies  ist  besonders 
giinstig  fur  eine  Situation,  bei  der  sehr  steile  S-Funktionen  verwendet  wer¬ 
den  miissen,  um  die  Nebenwirkungen  des  -^-Mittelungsverfahrens  zu  kom- 
pensieren.  Aufierdem  konnte  das  Training  bei  steiler  Funktion  mit  weniger 
Streuung  schneller  und  mit  einem  niedrigeren  Lernfehler  zur  Konvergenz 
kommen. 


4.3. 3. 3  Ableitung  der  neuen  S-Funktion 

Im  BP-Algorithmus  wird  die  erste  Ableitung  der  nichtlinearen  Funktion 
des  Vorwartsdurchgangs  fur  die  Bestimmung  der  Suchrichtung  benotigt. 
Die  Erzeugung  einer  echten  Ableitung  der  nichtlinearen  Funktion  ist  in  der 
Tat  kaum  moglich  und  auch  nicht  n5tig  (siehe  die  Diskussion  in  Abschnitt 
4.2. 1.3).  Eine  Losung  dafiir  ist,  eine  Naherung  zu  benutzen,  die  zu  dem 
vorhandenen  Verfahren  pafct  und  sich  leicht  implementieren  lafct. 
Bekannteste  und  popularste  Methode  dafiir  ist  die  Differenztechnik,  bei  der 
sich  das  Differential  durch  die  entsprechende  Differenz  ersetzen  lafit.  Das 
Schema  fur  die  Erzeugung  einer  Differenz  lafit  sich  mit  der  Abbildung  4.31 
darstellen. 

Ahnlich  wie  bei  der  Herleitung  der  S-Funktion  lafit  sich  die  theoretische 
Kennlinie  folgendermafien  beschreiben: 

Sei  S  die  Wahrscheinlichkeit,  da die  Anzahl  der  Einsen  im  aktuellen  Bereich 
des  Schieberegisters  zwischen  Rt  —  d  und  Rt  +  d  liegt.  Hier  ist  d  eine  ganze 
Zahl,  die  zwischen  0  und  Rt  liegen  soil.  Dann  ergibt  sich: 


S  =  P{Rt  —  d  <t  <  Rt  +  d) 


4.3.  GegenmaEnahmen 


89 


Rt+d 

=  £  P(T  =  k) 

k=Rt-d 
Rt+d  /p  \ 

=  £  (7)^(1 -«*•-* 

k=R,-i  '  *  ' 

Rn  €  {1, 2, 3, ...};  k  €  {0, 1,  0  <  jj  <  1; 

i?(  €  {0, 1, 2, i^};  d  6  {0,  X,  2, Rt}  (4.20) 

Die  Kennlinie  der  nach  Gleichung  4.20  berechneten  Ableitung  der  neuen 
S-Funktion  wird  in  Abbildung  4.32  dargestellt.  Es  ist  deutlich  zu  sehen, 
daJS  die  hergeleitete  Ableitung  einen  engen  Zusammenhang  mit  der  neu¬ 
en  S-Funktion  hat.  Je  steiler  die  S-Funktion  ist,  umso  schmaler  ist  die 
Ableitung.  Der  Parameter  d  ist  nun  nur  far  die  Einstellung  ihrer  Hohe 
zustandig.  Dies  konnte  fur  die  Parameterwahl  des  Trainings  einen  Vorteil 
ergeben,  weil  sich  die  Ableitung  automatisch  an  die  Anderung  der  Steilheit 
der  S-Funktion  anpassen  kann.  Bei  den  alten  S-  und  B-Funktionen  ist  das 
nicht  der  Fall,  weil  die  Form  der  B-Funktion  keinen  Zusammenhang  mit 
der  S-Funktion  hat.  Der  Parameter  RUNAB  ist  ein  selbstandiger  Parame¬ 
ter,  der  die  Hohe  und  die  Breite  der  S-Funktion  allein  bestimmen  kann. 
Die  Breite  der  B-Funktion  ist  immer  eine  feste  Konstante.  Dies  kann  beim 
Training  zur  Verfalschung  der  Suchrichtung  fuhren,  denn  der  Einflufibereich 


SR  (Rn  Bit) 


Abb.  4.31:  Schema  fiir  die  Erzeugung  der  Ableitung  der  S-Funktion 
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Abb.  4.32 :  Theoretischer  Verlauf  der  gescbatzten  Ableitung  der  alternati- 
ven  S-Funktion 

der  S-Funktion  ist  uraso  kleiner,  je  steiler  sie  ist.  Ohne  die  entsprechende 
Anderung  in  der  geschatzten  Ableitung  kann  diese  Wirkung  nicht  beruck- 
sichtigt  werden.  Die  Einstellung  der  Hohe  der  Ableitung  allein  hilft  da 
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sehr  wenig,  urn  darauf  zu  reagieren.  Dafiir  mufi  ihre  Form,  namlich  ihre 
Breite  (oder  Schmalheit),  einbezogen  werden.  Aus  diesem  Grund  ist  eine 
gute  Kombination  von  RUN  und  RUNAB  bei  den  alten  Neuronen  immer 
wichtig  fiir  die  Parameterwahl  des  TVainings,  jedoch  schwer  in  geeigneter 
Weise  festzulegen.  Bei  den  modifizierten  Neuronen  ist  dies  relativ  leicht, 
weil  sich  die  geschatzte  Ableitung  aus  der  mathematischen  Beziehung  er- 
gibt  und  sich  so  an  die  Steilheit  der  S-F\inktion  anpaftt.  Dies  kann  dazu 
fuhren,  dafi  der  Trainingsvorgang  schneller  als  zuvor  zum  Abschlufi  kommt, 
weil  die  jeweilige  Suchrichtung  besser  berechnet  werden  kann. 

Die  Implementierung  der  Ableitung  ist  fast  identisch  zu  der  der  S-Funktion. 
Der  tatsachliche  Verlauf  wird  durch  Simulationen  ermittelt  und  ist  in  Ab- 
bildung  4.33  veranschaulicht.  Im  Teil  A  der  Abbildung  wurden  die  Ablaufe 
der  Ableitungen  fur  eine  neue  S-Funktion  mit  einem  relativ  kurzen  Schie- 
beregister  (Rn  —  23)  unter  verschiedenen  Werten  von  d  gezeigt.  Der  Teil  B 
zeigt  die  Verhaltnisse  bei  einer  relativ  steileren  S-Funktion  (mit  Rn  —  39). 

4. 3.3. 4  Analyse  und  Experiment 

Die  Arbeitsweise  des  modifizierten  Neurons  kann  man  sich  so  vorstellen,  dag 
eine  bitweise  Verschiebung  eines  Fensters  auf  einer  endlosen  binaren  Folge 
vorgenommen  wird.  Dabei  wird  die  Anzahl  der  Einsen  im  Fenster  gezahlt 
und  mit  einer  Schwelle  verglichen.  Somit  handelt  es  sich  nicht  mehr  um 
einen  Runlangen-Akzeptor  wie  zuvor.  Seine  Ausgangsfolge  ist  erfreulicher- 
weise  nicht  so  stark  von  der  Runlangencharakteristik  seiner  Eingangsfolge 
abhangig;  sie  weicht  jedoch  von  einer  m-Sequenz  ab.  So  ist  es  notwendig, 
die  Runlangencharakteristik  der  Ausgangsfolge  zu  studieren.  Die  Abbildung 
4.34  zeigt  das  entsprechende  Ergebnis,  wenn  dem  Neuron  eine  0,5-Folge  zu- 
gefiihrt  wird. 

Im  Vergleich  zu  seinem  Vorganger  (siehe  Abbildung  4.9)  ist  eine  Verbesse- 
rung  deutlich  zu  sehen.  Dabei  gelten  die  gleichen  experimentellen  Bedin- 
gungen  wie  zuvor.  Die  Runlangen-Verteilung  entspricht  zwar  noch  nicht 
der  einer  m-Sequenz,  jedoch  befinden  sich  keine  extremen  Runs  in  der  Aus¬ 
gangsfolge.  Bei  grofien  Werten  von  Rn  bleibt  diese  Verteilung  unverandert. 
Dies  ist  eine  gute  Eigenschaft  fur  den  Einsatz  steilerer  S-Funktionen  in 
einem  grofien  Netz,  die  dort  unbedingt  notwendig  sind. 

Nun  wird  ein  Blick  auf  die  Ausbreitung  der  stochastischen  Streuungen  ge- 
worfen.  Dabei  steht  das  in  der  Abbildung  4.15  gezeigte  Mini-MLN  wieder 
zur  Debatte.  Zu  betrachten  ist  die  Standardabweichung,  wie  sie  sich  vom 
Eingang  bis  zum  Ausgang  des  MLN  ausbreitet.  Das  experiment elle  Ergebnis 
wird  in  der  Abbildung  4.35  gezeigt. 

Verglichen  mit  den  Kurven  in  der  Abbildung  4.17  ist  die  Standardabwei¬ 
chung  hier  erheblich  kleiner  geworden.  Qualitativ  betragt  sie  nun  fast  die 


Halfte  wie  zuvor,  insbesondere  in  der  Nahe  des  Ursprungs.  Wird  eine  sehr 
steile  S-Funktion  angewendet  (z.B.  Rn  =  39),  vergrofiert  sich  die  entspre- 
chende  Standardabweichung  sehr  wenig  und  liegt  immer  noch  unterhalb  von 
10%;  dies  wird  meist  als  Stopbedingung  fiir  das  Abbrechen  des  Trainings 
verwendet. 
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Abb.  4.34:  Runlangen-Verteilung  des  Ausgangsfolge  beim  modifizierten 
Neuron 

Aufgrund  der  Anwendbarkeit  der  steilen  S-Funktion  erscheint  es  nun  auch 
moglich,  den  Trainingsvorgang  (durch  die  Verwendung  einer  steileren  S- 
Funktion)  zu  beschleunigen  und  damit  das  hier  erlauterte  Verfahren  in  ver- 
gleichsweise  grofteren  Netzen  einzusetzen.  Denn  eine  steile  Aktivierungs- 
funktion  kann  die  Auswirkungen  des  ^-Mittelungsverfahrens  und  der  [0, 1]- 
Einschrankung  besser  kompensieren.  Um  diese  Vermutung  zu  bestatigen, 
wird  das  modifizierte  Neuron  zunachst  in  einer  praktischen  Aufgabenstel- 
lung  eingesetzt,  namlich  zur  Losung  des  bekannten  XOR-Problems.  Weite- 
re  Aufgabenstellungen  werden  in  dem  folgenden  Kapitel  anhand  mehrerer 
Beispiele  untersucht. 

In  der  Abbildung  4.36  werden  die  Ergebnisse  des  Einsatzes  der  neuen  Neu- 
ronen  im  Vergleich  zu  denen  der  alten  Neuronen  dargestellt.  Das  Resultat 
deutet  an,  dafi  der  Trainingsvorgang  tatsachlich  wie  erwartet  durch  die  neu¬ 
en  Neuronen  merklich  beschleunigt  wird.  Wegen  der  unterdriickten  Streuun- 
gen  kann  die  Suchrichtung  bei  jeder  Iteration  besser  und  genauer  bestimmt 
werden.  Dadurch  kommt  das  Training  schneller  zur  Konvergenz. 

In  der  Simulation  wird  auch  festgestellt,  daft  das  neue  Neuron  gegenuber 
dem  alten  noch  einen  Vorteil  hat,  namlich  die  Unabhangigkeit  des  Trai- 
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W1=1 ,0  und  W2=0,5  fur  beide  Einheiten,  TaktanzahMOOO 
Rn=23,  Stichprobenumfang:  30 


Abb .  4.35:  Ausbreitung  der  Standardabweichung  unter  dem 
Einsatz  des  modifizierten  Neurons  in  einem  MLN 

nings  von  der  Reihenfolge,  nach  der  die  Trainingsmuster  ins  Netz  einge- 
speist  werden.  Beim  Netz  mit  den  alten  Neuronen  mufi  zunachst  eine  giin- 
stige  Reihenfolge  der  Trainingsmuster  festgestellt  werden;  nur  dann  kann 
das  Training  konvergieren.  Andernfalls  gerat  es  haufig  in  die  Divergenz. 
Fur  das  XOR-Problem  z.B.  konvergiert  das  Training  bei  zufalliger  Auswahl 
der  Trainingsmuster-  einer  bekannten  Strategic  fur  das  Training  -  meistens 
nicht.  Bei  einer  relativ  komplexen  Aufgabenstellung  ist  die  Bestimmung  ei¬ 
ner  geeigneten  Reihenfolge  der  Trainingsmuster  genau  so  kompliziert  wie  die 
eigentliche  Aufgabenstellung  selbst.  Insofem  ist  dies  unrealistisch  und  auch 
praktisch  unmoglich.  Mit  dem  Einsatz  des  modifizierten  Neurons  entfallt 
dieses  Problem. 

4.3.4  Kurze  Diskussion 

Die  Untersuchungen  dieses  Abschmtts  erlauben  folgende  Schlufifolgerungen. 
•  Die  Verwendung  eines  Online-Trainings  ist  zwar  technisch  machbar 
und  beansprucht  kaum  zusatzliche  Chipflache,  jedoch  bringt  seine  Um- 
setzung  keine  wesentliche  Besserung  im  Vergleich  ziun  Gegenstrom- 
Verfahren  beim  Training  des  Netzes.  Daher  kann  festgestellt  wer- 
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Anzahl  Epochen 

2-2-1 -Netz,  ADD=14,  IND=12 

1.  Trainiert  mit  alten  Neuronen,  RUN=5,  RUNAB=3 

2.  Trainiert  mit  modifizierten  Neuronen,  Rn=23,  =3 


Abb.  4.36:  Vergleicb  der  Trainingsergebnisse  a  us  Einsatz  der  beiden  Neu¬ 
ronen  fiir  das  XOR-Problem 


den,  dafi  das  Gegenstrom-Verfahren  kein  besonderes  Hindernis  fur 
die  Skalierung  des  Verfahrens  zu  grofien  Netzen  sein  sollte.  Es  ist 
auch  zulassig,  es  mit  den  konventionellen  Methoden  wie  beschrieben 
zu  vergleichen. 


•  Die  Verwendung  des  ADDIE  als  TPF  kann  die  ungiinstige  starke 
Streuung  der  S-Funktion  in  der  Nahe  des  Ursprungs  im  M-Bereich 
wesentlich  unterdriicken.  Diese  Mafenahme  kann  leicht  ins  vorhande- 
ne  Verfahren  integriert  werden,  und  zwar  ohne  zusatzliche  Platzfor- 
derungen.  Dadurch  lassen  sich  sehr  steile  S-Funktionen  anwenden; 
dies  wird  bei  ihrem  Einsatz  in  grofieren  Netzen  mit  grofeen  N  im 
^-Mittelungs verfahren  erforderlich.  Angesichts  der  Anlaufzeit  des 
ADDIE  ist  diese  MaSnahme  allerdings  nur  fur  die  Zwischenschichten 
geeignet,  bei  denen  das  ADDIE  keine  direkte  Verbindung  zur  Aufien- 
weit  hat. 
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•  Die  Arbeitsweise  des  modifizierten  Neurons  ist  klar  und  emfach  nach- 
vollziehbar.  Insbesondere  ist  sein  Verhalten  nicht  mehr  von  der  Run- 
langenverteilung  seiner  Eingangsfolge  abhangig.  Damit  kann  der  se- 
quentielle  Codierer  weiterhin  fiir  die  Codierung  der  Netzsipiale  und 
der  Gewichte  verwendet  werden.  Daruber  hinaus  ist  die  Eigenschaft 
seiner  Ausgangsfolge  deutlich  verbessert,  namlich  bessere  Runlangen- 
verteilung  und  niedrigere  Standardabweicbung  bei  der  Ausbreitung 
der  stochastischen  Streuung.  Dies  kann  dazu  fuhren,  dafi  das  Training 
schneller  oder  mit  niedrigerem  Lemfehler  ablauft.  Konkretere  Aussa- 
gen  konnen  nur  auf  der  Basis  zahlreicher  Simulationen  in  Bezug  auf 
die  unterschiedlichen  Aufgabenstellungen  gemacht  werden.  Zu  erwah- 
nen  ist  noch  ein  anderer  Punkt,  namlich,  dafi  die  genaherte  Ableitung 
einen  engen  Zusammenhang  mit  der  neuen  S-Funktion  hat.  Durch 
diesen  Zusammenhang  kann  sie  automatisch  auf  die  Anderung  der 
Steilheit  der  S-Funktion  reagieren.  Bei  den  alten  Neuronen  dagegen 
steht  die  B-Funktion  in  keiner  Beziehung  zur  S-Funktion. 


•  Stochastische  Streuungen  bestehen  iiberall  in  einem  Netz  mit  stocha¬ 
stischen  Rechenwerken.  Die  Standardabweichung  kann  bis  zu  10% 
der  eigentlichen  Signalwerte  (im  W-Bereich)  betragen.  Aus  dieser 
Sicht  konnte  das  Verfahren  fur  Aufgabenstellungen  ungeeignet  sein, 
bei  denen  der  Wertunterschied  zwischen  den  Trainingsmustern  an  ei- 
ner  Eingangsleitung  kleiner  als  0,1  (im  W-Bereich)  ist.  Denn  das  Netz 
kann  bei  noch  grofieren  Streuungen  solche  Unterschiede  nicht  mehr  er- 
kennen.  Daruber  hinaus  kann  der  Lernfehler  durch  endloses  Training 
nicht  beliebig  klein  werden,  wie  es  beim  konventionellen  Verfahren  der 
Fall  ist. 


4.4  Beurteilung  und  Testbeispiele 

Im  folgenden  Abschnitt  werden  die  Tauglichkeit  und  Verwendbarkeit  der 
in  den  vorherigen  Abschnitten  erlauterten  Techniken  zur  Verbesserung  des 
Verfahrens  anhand  verschiedener  Beispiele  untersucht. 

Die  Funktionalitat  des  auf  stochastischer  Rechentechnik  beruhenden  neuro- 
nalen  Netzes  wird  aus  Kosten-  und  Zeitgriinden  nur  in  Software  implemen- 
tiert  und  simuliert.  Zu  diesem  Zweck  ist  ein  Programm  notwendig,  welches 
in  der  Lage  ist,  die  Hardwarevorgange  des  Verfahrens  so  realitatsnah  wie 
moglich  zu  simulieren  (hardwarenahe  Software-Simulation).  Alle  bekannten 
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und  zur  Verfugung  stehenden  NN-Simulatoren  (wie  SNNS  3,  MATLAB  von 
Scientific  Computers  und  Trajan  4.0  Neural  Network  Simulator  von  Trajan 
Software  Ltd,  Grofcbritannien)  sind  fur  diesen  Zweck  nicht  geeignet,  weil 
sie  nur  fur  die  konventionellen  Falle  konzipiert  wurden.  Im  vorliegenden 
Fall  wurde  jedoch  ein  spezieller  NN-Simulator  benotigt  und  entwickelt,  um 
die  Ansatze  der  theoretischen  Untersuchungen  nachweisen  zu  konnen.  Der 
Aufbau  und  die  Bedienung  der  Simulationssoftware  wird  im  Anhang  A  in 
alien  Einzelheiten  besprochen. 

Ein  weiteres  Ziel  der  Untersuchungen  per  Software-Simulation  ist,  Ansatze 
daxuber  zu  gewinnen,  bis  zu  welcher  Grofienordnung  ein  lernfahiges  Netz 
nach  dem  hier  vorgestellten  Verfahren  gebaut  werden  kann  und  fur  welche 
Art  von  Aufgabenstellungen  das  Verfahren  geeignet  ist.  Diese  Fragen  sind 
nicht  leicht  zu  beantworten,  da  die  Konvergenzeigenschaften  eines  neuro- 
nalen  Netzes  von  der  Komplexitat  der  zu  losenden  Aufgabenstellung  sehr 
stark  beeinfiufit  werden  konnen. 

Normalerweise  sind  die  Dimension  der  Trainingsmuster  und  die  Anzahl  der 
unabhangigen  Trainingsmuster  wichtige  Faktoren  fur  die  Komplexitat  des 
Lernvorgangs.  Ein  neuronales  Netz  fungiert  wie  eine  Funktion,  die  einen 
Eingabevektor  auf  einen  Ausgabevektor  abbilden  kann.  Das  Training  des 
Netzes  bedeutet,  eine  solche  Funktion  zu  bestimmen,  und  zwar  reprasentiert 
durch  Funktionsart  (Netzarchitektur)  und  zugehorige  Parameter  (Gewich- 
te).  In  diesem  Sinne  ist  das  Training  eines  neuronalen  Netzes  Equivalent  mit 
der  Aufgabenstellung  der  Interpolation  von  Meftwerten  durch  Polynome.  Je 
hoher  der  Grad  des  Polynoms  und  je  mehr  Mefiwerte,  desto  komplexer  ist 
die  Aufgabe  der  Interpolation.  Das  gleiche  gilt  auch  beim  Training  eines 
neuronalen  Netzes.  Je  hoher  die  Anzahl  der  Neuronen  und  je  mehr  un- 
abhangige  Trainingsmuster,  umso  schwieriger  ist  das  Training.  So  ist  die 
FVage,  wie  viele  Neuronen  in  einem  Netz  enthalten  sein  miissen,  um  ein 
bestimmtes  Problem  zu  losen,  identisch  mit  der  nach  dem  optimalen  Grad 
eines  Anpassungspolynoms.  Daher  kann  eine  solche  Frage  nicht  unabhangig 
vom  Problem  selbst  beantwortet  werden. 

Die  Anzahl  der  Gewichte  im  Netz  wird  in  den  folgenden  Abschnitten  als  ein 
niitzliches  Gebrauchsmafi  fiir  die  Skalierbarkeit  des  vorgestellten  Verfahrens 
betrachtet.  Die  Anzahl  der  Neuronen  in  der  Ausgangsschicht  ist  von  der 
Aufgabenstellung  allein  vorgegeben.  Daher  ist  nur  die  Anzahl  der  Neuronen 
in  der  verborgenen  Schicht  (wenn  vom  zweischichtigen  Netz  die  Rede  ist)  fiir 
die  Anpassung  des  Netzes  an  die  Komplexitat  des  Lernproblems  zustandig. 
Aber  diese  ist  unabhangig  von  der  Dimension  der  Eingabe.  Aus  diesem 


3ein  bekanntes  freies  Software-Paket,  welches  an  der  Universitat  Stuttgart  fur  die  NN- 
Simulation  entwickelt  wurde 
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Grand  ist  die  gesamte  Anzahl  der  Gewichte  im  Netz  ein  besseres  Mafi  als 
die  gesamte  Neuronenanzahl,  weil  sie  alle  Faktoren,  namlich  Dimension  der 
Trainingsmustervektoren  und  Komplexitat  des  Lernproblems,  beinhaltet. 

4.4.1  Behandelte  Problemklassen  und  Beispiele 

Die  Software-Simulation  des  Verfahrens  ist  zeitlich  sehr  aufwendig.  So  ist 
die  Auswahl  der  geeigneten  Problemklassen  keine  leichte  Aufgabe.  In  der 
Literatur  ([64],  [3], [38],  [49]  und  [43])  und  im  Internet,  (z.B.  UCI  machi¬ 
ne  learning  database  (http://www.ics.uci.edu/  mlearn/MLRepository.html) 
Oder  The  neural-bench  Benchmark  collection  at  Carnegie  Mellon  Universi¬ 
ty  (http://www.boltz.cs.cmu.edu/)  u.s.w.)  stehen  viele  Benchmarks  fur  die 
Experimente  mit  ANNs  zur  Verfiigung.  Aber  die  meisten  davon  sind  fiir 
den  vorliegenden  Fall  aus  den  folgenden  Gninden  nicht  geeignet. 

•  Die  Software-Simulation  des  Verfahrens  ist  zeitlich  sehr  aufwendig. 
Sie  mufi  sich  daher  auf  relativ  kleine  Aufgabenstellungen  beschranken. 
Viele  Benchmarks  enthalten  hundert  oder  sogar  bis  tausend  mehrdi- 
mensionale  Trainingsvektoren.  Dies  fiihrt  zu  sehr  grofien  Netzen  und 
astronomischen  Trainingszeiten. 

•  Die  meisten  Benchmarks  beschaftigen  sich  mit  reellen  Zahlen,  die  sich 
nur  um  Hundertstel  oder  sogar  Tausendstel  voneinander  unterschei- 
den,  wie  z.B.  die  Vowels-Daten,  deren  Aufgabe  die  Unterscheidung  der 
elf  Vokale  des  Britischen  Englisch  ist.  Wegen  der  Existenz  der  stocha- 
stischen  Streuungen,  die  grower  als  der  Wert-Unterschied  in  den  Ein- 
gangsdaten  sein  konnen,  stehen  die  Streuungen  wahrend  des  Trainings 
im  Vordergrund.  So  kann  das  Training  nie  zur  Konvergenz  kommen. 

•  Die  Benchmarks  sind  meistens  fur  den  Vergleich  von  Softwarelosungen 
gedacht,  d.h.  sie  werden  fiir  die  Bewertung  unterschiedlicher  Lem- 
algorithmen  verwendet.  Das  bekannte  Zwei-Spiralen-Problem,  bei 
dem  zwei  ineinander  geschachtelte  Spiralen  in  der  X— Y-Ebene  aus 
je  97  Trainingspunkten  (drei  Umdrehungen  mit  je  32  Punkten  pro 
Drehung  plus  Endpunkte)  in  zwei  Klassen  zu  trennen  sind,  ist  ein 
gutes  Beispiel  dafiir. 

Aus  diesen  Grunden  werden  nur  solche  Problemdarstellungen  betrachtet, 
bei  denen  lediglich  binare  Trainingsmuster  vorkommen.  In  der  Praxis  wur- 
den  reell-wertige  Zahlen  statt  reiner  ganzer  Zahlen  (Eins  oder  Null)  fur 
die  Komponenten  des  Trainingsvektors  verwendet.  Diese  Wahl  entspricht 
folgenden  tjberlegungen: 

•  Wenn  die  Trainingsmuster  nur  Einsen  und  Nullen  enthalten,  dann 
braucht  man  keinen  Codierer  fiir  die  Eingangs-  und  Zielmuster.  Man 
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kann  dann  die  Werte  innerhalb  der  [N]  Takte  direkt  an  die  Em-  und 
Ausgange  4  anlegen.  Die  Software-Simulationen  in  [51]  und  [16]  wur- 
den  auf  diese  Weise  durchgefiihrt.  Dabei  wurden  nur  zwei  Typen 
von  Bitfolgen  am  Eingang  des  Netzes  erzeugt:  eine  mit  vollen  Ein- 
sen  (falls  die  Eingabe  eine  Eins  ist)  oder  eine  mit  vollen  Nullen  (falls 
die  Eingabe  eine  Null  ist).  Dieses  sind  jedoch  zwei  extreme  Falle  fur 
alle  stochastischen  Rechenwerke  im  Netz,  die  bei  der  stochastischen 
Technik  eigentlich  vermieden  werden  sollten. 

•  Bei  einer  zufalligen  Gewichtsinitialisierung  konnen  manche  Gewich- 
te  am  Anfang  des  Trainings  am  Randbereich  (Null  oder  Eins)  des 
Wahrscheinlichkeits-Werteraums  liegen.  Wenn  eine  Folge  mit  vollen 
Einsen  oder  Nullen  nun  ins  Netz  eingespeist  wird,  konnen  die  Ak- 
tivitatswerte  einiger  Neuronen  in  der  verborgenen  Schicht  gleich  in 
ihrem  Sattigungsbereich  landen.  Daher  nehmen  die  davor  liegenden 
Gewichte  kaum  Modifikationen  vor.  Fur  das  weitere  Training  wirkt 
das  betroffene  Teilnetz  fast  wie  ausgeschaltet.  Diese  Nebenwirkung 
kann  sich  in  die  nachstehenden  Teilnetze  ausbreiten,  die  den  Ausgang 
des  scheinbar  ausgeschalteten  Teilnetzes  als  ihren  Eingang  verwenden, 
wenn  die  zu  ihnen  gehorenden  Gewichte  wahrend  des  Trainings  im 
Randbereich  (Null  oder  Eins)  des  Werteraums  der  Wahrscheinlichkeit 
landen. 

•  Viele  Aufgabenstellungen  in  der  Wirklichkeit  fuhren  nicht  zu  rein  bi¬ 
naren  Vektorkomponenten.  Daher  liegen  die  Komponenten  der  TVai- 
ningsvektoren  nach  ihrer  Normierung  meistens  im  Intervall  [0,1]  des 
reellen  Zahlenraums.  Um  die  Tauglichkeit  des  Verfahrens  zu  testen, 
ist  es  daher  sinnvoll,  die  in  dem  Wahrscheinlichkeitsraum  liegenden 
reellen  Werte  zu  verwenden  statt  die  binaren  Werte  Eins  und  Null. 

•  Mit  reellen  Werten  kann  man  selbst  leicht  eine  Testmenge  von  Vekto- 
ren  herstellen,  die  von  den  vorgegebenen  Vektoren  etwas  abweichen. 
Dies  ist  besonders  sinnvoll,  wenn  die  Anzahl  der  zur  Verfugung  ste- 
henden  Proben  sehr  gering  ist  (z.B.  das  XOR-Problem  hat  nur  vier 
Proben  im  binaren  Fall  zur  Verfiigung,  die  sowohl  als  Trainingsmuster 
als  auch  als  Testmuster  verwendet  werden  miissen). 

Die  Ausgaben  des  Netzes  sind  nach  ihrer  Decodierung  fur  alle  Aufgabenstel¬ 
lungen  immer  reelle  Werte,  und  zwar  liegen  sie  im  Intervall  [0,1]  (betrachtet 
als  Wahrscheinlichkeit)  oder  [-1,1]  (betrachtet  als  Maschinenvariable).  Diese 
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Netzausgabe-Werte  werden  bei  der  Testphase  einer  binaren  Aufgabenstel- 
lung  nach  der  iiblichen  40-20-40-Regel  bewertet,  d.h.  wenn  der  Ausgabe- 
wert  des  Netzes  im  Interval!  [0,0.4]  oder  [0.6,1]  liegt,  wird  er  als  Null  oder 
Eins  bewertet.  Liegt  er  im  anderen  Intervall,  namlich  [0.4, 0.6],  wird  er  als 
ungewift  betrachtet.  Auf  dieser  Weise  kann  leicht  festgestellt  werden,  ob  das 
trainierte  Netz  den  Test  besteht  oder  nicht. 

4.4.1. 1  Das  Parity-Problem 

Beim  Parity-Problem  soil  ein  ANN  lernen,  bei  einer  ungeraden/geraden 
Anzahl  der  Einsen  an  seinem  Eingang  eine  Eins/Null  an  seinem  Ausgang 
zu  liefern.  Das  bekannte  XOR-Problem  ist  eigentlich  ein  Sonderfall  davon, 
bei  dem  die  Eingangsmuster  lediglich  zweidimensional  sind.  Aus  dieser  Sicht 
ist  es  auf  keinen  Fall  eine  leichte  Aufgabe  fur  das  Verfahren.  Die  Datensatze 
wurden  den  UCI  Machine  Learning  Databases  entnommen. 

Je  grower  die  Dimension  der  Eingangsmuster  wird,  desto  grower  wird  die 
Anzahl  der  Gewichte  des  zu  trainierenden  Netzes  und  somit  auch  die  An¬ 
zahl  der  zu  klassifizierenden  Trainingsmuster.  Bei  wachsender  Dimension 
des  Parity-Problems  steigt  der  Schwierigkeitsgrad  der  Lernaufgabe  enorm. 
Z.B.  bei  der  Dimension  2  muft  das  Netz  nur  vier  gerade  Linien  als  TVenn- 
linien  im  Vektorenraum  der  Dimension  2  feststellen,  wobei  schon  bei  der 
Dimension  4  das  Netz  16  Hyperebenen  in  einem  Vektorenraum  der  Dimen¬ 
sion  4  herausfinden  mufi. 

Der  Grund,  dieses  Lernproblem  hier  als  Beispiel  zu  nehmen,  besteht  dar- 
in,  daft  die  Fahigkeit  des  Verfahrens  beim  Umgang  mit  relativ  schwierigen 
Lernproblemen  nachzuweisen  ist.  Als  Kiirzel  wird  fiir  das  entsprechende 
Lernproblem  Pd  verwendet.  Der  Index  d  steht  dabei  fiir  die  Dimension 
der  Eingabevektoren.  Daher  steht  Pn  fiir  das  n-Bit-Parity-Problem,  wobei 
n  =  2  dem  bekannten  XOR-Problem  entspricht. 

4. 4. 1.2  Buchstabenerkennung  iiber  Bitmap— Representation 

Dieses  Beispiel  wurde  aus  der  Literatur  [17]  iiberaommen.  Hier  handelt  es 
sich  um  die  Erkennung  der  Buchstaben,  die  durch  eine  Bitmap  (z  mal  s 
Pixel,  z  und  s  =1,2,...)  reprasentiert  werden.  Das  TVaining  dient  dazu,  dem 
Netz  beizubringen,  die  entsprechenden  ASCII-Codes  (7  Bit)  in  Binardar- 
stellung  auszugeben,  wenn  ihm  die  Bitmap-Darstellung  eines  Buchstabens 
prasentiert  wird.  Derartige  Aufgabenstellungen  beziehen  sich  auf  sogenann- 
te  OCR-Anwendungen  ( Optical  Character  Recognition). 

Mit  diesem  Beispiel  kann  man  die  Skalierbarkeit  des  Verfahrens  qualitativ 
untersuchen.  Man  kann  die  Anzahl  der  zu  erkennenden  Buchstaben  festle- 
gen  und  die  Grofte  der  Bitmaps  Schritt  fur  Schritt  vergroftem,  wie  z.B.  7*5- 
Matrix,  9* 7-Matrix,  10*8-Matrix,  usw.  bis  zu  der  Bitmapgrofie,  bei  der  das 
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Training  nicht  mehr  konvergiert.  Auf  diese  Weise  konnen  die  beiden  wich- 
tigen  Faktoren  der  Komplexitat  des  Lernproblems,  namlich  die  Dimension 
des  Trainingsmusters  und  die  Anzahl  der  unabhangigen  Trainingsmuster, 
getrennt  beriicksichtigt  werden.  Dadurch  kann  man  einen  Ansatz  gewin- 
nen,  ob  die  Divergenz  des  Trainings  von  dem  ^-Mittelungsverfahren  oder 
der  Komplexitat  des  zu  losenden  Problems  selbst  verursacht  wurde.  Erhoht 
sich  die  Anzahl  der  unabhangigen  Trainingsmuster,  nimmt  der  Schwierig- 
keitsgrad  ebenfalls  zu,  weil  das  Netz  mehr  Klassen  als  zuvor  klassifizieren 
mufi.  Das  heifit,  mehr  Klassengrenzen  sind  zu  ermitteln.  Um  dies  zu  er- 
reichen,  miissen  der  verborgenen  Schicht  mehr  Neuronen  hinzufagt  werden. 
Dadurch  nimmt  auch  die  Anzahl  der  Gewichte  zu.  In  diesem  Fall  kann  man 
nicht  entscheiden,  ob  das  Verfahren  selbst,  z.B.  das  ~ -Mittelungs  verfahren 
oder  die  Komplexitat  des  Problems,  die  Ursache  der  Divergenz  ist.  Aus 
diesem  Grund  ist  es  sinnvoll,  mit  einer  festen  Anzahl  zu  trennender  Klassen 
anzufangen.  Zunachst  wird  eine  Untermenge  des  Alphabets  fur  das  Klassi¬ 
fizieren  gewahlt,  namlich  A,C,E,Q,S,T,Y.  Deren  Bitmap-Reprasentationen 
soil  das  Netz  durch  erfolgreiches  Training  in  den  entsprechenden  ASCII- 
Code  umsetzen. 

Im  folgenden  Abschnitt  wird  dieses  Beispiel  als  BEz+8  bezeichnet.  2  *  s  be- 
zeichnet  die  Grofie  der  Bitmap-Reprasentation  der  zu  erkennenden  Buch- 
staben,  z.B.  BE 7*5,  BE9*7,  BEio*s,  usw.  Die  Klassenanzahl  wird  beriick- 
sichtigt,  indem  eine  in  den  Klammern  stehende  ganze  Zahl  dahintergesetzt 
wird.  Zum  Beispiel  steht  BE7*§  (7)  fur  die  Buchstabenerkennung  mit  sieben 
zu  trennenden  Klassen  und  eine  7  *  5-Matrix  als  Eingangsvektoren. 

4.4. 1.3  Buchstabenerkennung  via  numerische  Merkmale 

Im  Vergleich  zum  Bitmap- Ansatz  lafit  sich  die  Buchstabenerkennung  auch 
auf  andere  Weise  behandeln.  Einem  ANN  werden  nicht  direkt  binare  Bit¬ 
maps  der  zu  erkennenden  Buchstaben  prasentiert,  sondern  Merkmalsvek- 
toren,  die  durch  Vorverarbeitung  aus  originalen  Bitmaps  erzeugt  werden. 
Die  Merkmale  sind  unabhangig  von  der  Grofie  der  Bitmaps  und  der  unter- 
schiedlichen  Fonts. 

In  [61]  wurden  16  Merkmale  zusammengestellt,  welche  die  Erkennungsaufga- 
be  gut  erfiillen  konnen.  Sie  sind  numerisch  und  bestehen  aus  statistischen 
Momenten  und  der  Kantenanzahl  ( edge  counts)  der  Bitmap-Darstellung. 
Das  Zielmuster  sind  26  englische  Buchstaben  (von  A  bis  Z),  die  aus  20 
unterschiedlichen  Fonts  stammen.  Durch  stochastische  Verzemmg  wur¬ 
de  ein  Datensatz  von  20.000  Fallen  erzeugt  und  zu  einer  Menge  natiir- 
licher  Zahlen  {0,1,... ,15}  umskaliert.  Die  fertigen  Datensatze  kann  man 
vom  Internet  (ftp:/ /ftp.ics.uci.edu/pub/machine-learning-databases/letter- 
recognition/)  herunterladen. 
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Um  festzustellen,  wie  das  hier  erlauterte  Verfahren  mit  nichtbinaren  Daten- 
satzen  umgeht,  ist  dieser  Datensatz  geeignet.  Erstens  ist  die  Anzahl  der 
unabhangigen  Trainingsmuster  (sechsundzwanzig)  und  die  Dimension  der 
Trainingsmuster  (sechzehn  fiir  den  Eingang  und  Eins  fur  den  Ausgang)  fest- 
gelegt.  Dadurch  ist  die  Netzgrofie  auch  fast  wie  vorgeschrieben.  Zweitens 
bleibt  das  zu  trainierende  Netz  relativ  klein.  So  ist  der  Trainingsaufwand 
nicht  sehr  grofi  und  man  kann  in  einem  vemunftigen  Zeitraum  mehrfach 
Trainingsversuche  durchfiihren. 

Es  wurden  zur  Anpassung  an  das  Verfahren  einige  Anderungen  vorgenom- 
men,  namlich  die  Konvertierung  der  Datensatze  in  die  binare  Form.  Dazu 
wurde  jede  Komponente  des  Eingangsmusters  durch  funfzehn  geteilt  (Nor- 
mierung)  und  jeder  der  Zielbuchstaben  (charakteristisches  Format)  in  eine 
fiinfstellige  binare  Zahl  (weil  25  =  32)  umgewandelt.  Damit  kann  das  Si- 
mulationsprogramm  die  Datensatze  dieses  Beispiels  leicht  verarbeiten.  Als 
Vereinbarung  fiir  die  folgende  Erlauterung  wird  das  betreffende  Beispiel  mit 
BE Ns  (s  bezieht  sich  auf  die  Anzahl  der  zu  erkennenden  Buchstaben)  be- 
zeichnet. 

4.4.2  Ergebnisse  und  Diskussion 

In  diesem  Abschnitt  werden  die  Ergebnisse  der  Software-Simulation  erlau- 
tert,  die  mit  den  obigen  Beispieldatensatzen  durchgefiihrt  wurden.  An- 
schliefiend  wird  diskutiert,  ob  die  im  letzten  Kapitel  erlauterten  Ansatze 
verallgemeinert  werden  konnen.  Zum  Schlufi  wird  eine  Schatzung  oder  ei¬ 
ne  Vermutung  liber  die  Skalierbarkeit  und  Anwendbarkeit  des  Verfahrens 
geaufiert. 


4.4. 2.1  Gegenstrom-Verfahren 

Es  wurde  in  Abschnitt  4.3.1  durch  das  XOR-Problem  bestatigt,  dafi  die 
Verwendung  des  Gegenstrom- Verfahrens  anstatt  des  Online-Trainings  die 
Konvergenzeigenschaften  des  Trainings  kaum  beeinflufit.  Durch  Simulatio- 
nen  mit  den  gerade  vorgestellten  Beispielen  wurde  diese  Behauptung  weiter 
bestatigt  (siehe  Abbildungen  4.37  und  4.38). 

Bei  alien  Fallen  fiihrt  das  Online-Training  etwas  schneller  zur  Konvergenz 
als  das  Gegenstrom-Verfahren.  Der  Unterschied  ist  nicht  sehr  gro£  und 
kann  daher  vemachlassigt  werden.  Wenn  das  Training  durch  Hardware 
(neuronale  Chips)  durchgefiihrt  wird,  spielt  ein  solcher  Unterschied  keine 
Rolle  mehr.  Die  Ergebnisse  aller  hier  erlauterten  Beispiele  weisen  auf,  da£ 
die  Verwendung  des  Gegenstrom-Verfahrens  im  Allgemeinen  keine  nega- 
tiven  Auswirkungen  auf  die  Konvergenzeigenschaften  der  Lernalgorithmen 
ausiiben  kann. 
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3-8-1 -Netz,  ADD=16,  IND=14,Takt=2000,  Rn=31,  Rt=16,  =3 
1.  Gegenstrom-Verfahren,  2.  Online-Training,  3.  Batch-Training 

Abb.  4.37:  Vergleich  der  verschiedenen  Trainingsverfahren  mit  Beispiel  P3 

4.4. 2.2  Verbesserte  Konvergenzeigenschaften  durch 
modifizierte  Neuronen 

Im  vorherigen  Abschnitt  wurde  vermutet,  dafi  der  Einsatz  der  in  deni  Ab- 
schnitt  beschriebenen  modifizierten  Neuronen  eine  Verbesserung  der  Kon¬ 
vergenzeigenschaften  des  Verfahrens  erbringen  konnte.  Diese  Vermutung 
wird  hier  durch  obige  Beispiele  bestatigt.  Die  Ergebnisse  der  durchgefiihr- 
ten  Simulationen  zeigen  deutlich  einige  Verbesserungen  im  Vergleich  zu  den 
alten  Neuronen  (siehe  Tabelle  4.1). 

Wahrend  das  Training  unter  Verwendung  von  Netzen  mit  den  urspriingli- 
chen,  „alten“  Neuronen  bei  den  meisten  Beispielen  zur  Divergenz  fiihrt,  be- 
wirkt  der  Austausch  gegen  die  verbesserten,  „neuen“  Neuronen  iiberwiegend 
Konvergenz.  Die  Einzelergebnisse  sind  in  Tabelle  4.1  ausfiihrlich  dargestellt. 
Das  Zahlenpaar  s/v  in  den  Spalten  ,^lte/neue  Neuronen"  deutet  an,  dafi 
innerhalb  von  v  Versuchen  das  Training  s-mal  mit  Erfolg  (Konvergenz)  ab- 
geschlossen  wurde.  Aus  Griinden  des  gro£en  Zeitaufwands  der  Simulation 
wurden  bei  jedem  Versuch  nur  1000  Lemzykien  durchgefiihrt.  Die  Anzahl 
der  Versuche  ist  fur  eine  statistisch  gesicherte  Aussage  noch  zu  gering.  Je- 
doch  ist  der  Trend  zur  Verbesserung  bereits  deutlich  zu  erkennen. 
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Abb.  4.38:  Vergleich  der  verschiedenen  Trainingsverfahren  mit  Beispiel  P\ 


Beispiel 

G.Z. /N.T. 

KZ 

Alte  Neuronen 

Neue  Neuronen 

Pz 

21/3-4-1 

2 

2/10 

10/10 

Pa 

■again 

2 

0/10 

8/10 

BEU  s(7) 

867/35-20-7 

7 

5/5 

bena 

709/16-32-5 

4 

0/5 

1/5 

G.Z.  ist  eine  Abkurzung  fur  Gewichtsanzahl,  N.T.  fur  Netztopologie  und  KZ  fur 

Klassenanzahl 


Tabelle  4.1:  Vergleich  der  Tra iningserfolge  mit  alten/neuen  Neuronen 


Bei  den  alten  Neuronen  spielt  die  Reihenfolge  der  prasentierten  Trainings- 
muster  eine  Rolle;  sie  hat  Einflufi  darauf,  ob  das  Training  zur  Konver- 
genz/Divergenz  fiihrt  oder  nicht.  Sogar  bei  dem  XOR-Problem,  wo  es  nur 
vier  Trainingsmuster  gibt,  kann  eine  falsche  Reihenfolge  zum  erfolglosen 
Training  fiihren.  Diese  Eigenschaft  hat  mindestens  folgende  Nachteile: 

•  Verzicht  auf  zufallige  Auswahl  des  Trainingsmusters  aus  der  vorgege- 
benen  Trainingsmenge ,  obwohl  dies  die  iibliche  Methode  in  der  Lite- 
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ratur  und  eine  Maftnahme  gegen  das  Steckenbleiben  des  Trainings  in 
der  Nahe  eines  lokalen  Minimums  ist. 

•  Die  Festlegung  einer  richtigen  Reihenfolge  ist  in  der  Praxis  kaum  mog- 
lich,  wenn  die  Anzahl  der  zur  Verfugung  stehenden  Trainingsmuster 
grofi  wird. 

Dagegen  ist  das  Training  mit  dem  Einsatz  von  neuen  Neuronen  vollig  un- 
abhangig  von  der  Reihenfolge  der  eingespeisten  Trainingsmuster.  Diese  Ei- 
genschaft  hat  sich  bei  alien  obigen  Beispielen  aufzeigen  lassen.  Dadurch  ist 
man  in  der  Lage,  die  iibliche  Methode  zu  verwenden,  namlich  eine  zufallige 
Reihenfolge  fiir  die  Presentation  der  TVainingsmuster.  In  diesem  Fall  sind 
die  obigen  Nachteile  natiirlich  verschwunden. 

Bei  der  Auswahl  der  Trainingsparameter  wurden  die  Ansatze  aus  den  vorhe- 
rigen  Kapiteln  fiir  alle  obigen  Beispiele  angewendet.  Dies  hat  bei  der  Suche 
nach  richtigen  Parameterkombinationen  viel  Zeit  erspart.  Aus  den  Erfah- 
rungen  mit  dem  alten  Neuron  ist  die  richtige  Wahl  des  Wertes  fiir  das  INDIE 
das  wichtigste  (siehe  Abbildung  3.7)  fiir  die  Konvergenz  des  Trainings  iiber- 
haupt.  Mit  anderen  Worten  reagiert  der  Lernvorgang  sehr  empfindlich  auf 
die  Zahlerlange  des  INDIE. 

Mit  dem  Einsatz  der  modifizierten  Neuronen  ist  dies  nicht  mehr  der  Fall. 
Der  wahlbare  Wertebereich  ist  grower  als  zuvor,  d.h.  das  Verfahren  rea¬ 
giert  auf  diesen  Lernparameter  nicht  mehr  so  empfindUch  wie  zuvor.  Dies 
ist  besonders  giinstig  fiir  eine  Hardware-Implementierung  des  Verfahrens, 
weil  die  Hardwarebestandteile  der  Parameter  wie  INDIE-  bzw.  ADDIE- 
Lange  nicht  so  leicht  oder  nicht  so  haufig  geandert  werden  konnen  wie  in 
der  Software. 

Die  Abbildung  4.39  zeigt  den  Vergleich  der  fiir  die  Konvergenz  wahlbaren 
Zahlerlange  des  INDIE  bei  Einsatz  der  alten  und  neuen  Neuronen.  Im 
Fall  der  neuen  Neuronen  liegen  die  fiir  die  Konvergenz  wahlbaren  Werte 
fast  genau  innerhalb  des  Bereichs  zwischen  ihren  theoretischen  Unter-  und 
Obergrenzen,  die  im  Abschnitt  3.3.2  mathematisch  abgeleitet  wurden. 

Die  gleiche  Simulation  wurde  mit  den  Beispielen  P3  und  P±  durchgefiihrt. 
Die  Abbildung  4.40  zeigt  die  Ergebnisse  der  Simulation.  Wegen  des  grofien 
Zeitaufwands  besteht  jeder  Versuch  hier  nur  aus  1000  Zyklen.  Die  einstell- 
bare  Zahlerlange  des  INDIE,  mit  denen  das  Training  innerhalb  von  1000 
Zyklen  konvergiert  (d.h.  die  Stopbedingung  ist  erfiillt),  ist  sehr  ahnlich 
(d.h.  mit  INDIE=11,12,13  kann  das  Training  innerhalb  von  1000  Zyklen 
konvergieren),  obwohl  die  zur  Konvergenz  benotigten  Lemschritte  (Zyklen) 
unterschiedlich  sind.  Dies  lafit  sich  auch  nachvollziehen :  je  schwieriger  die 
Aufgabe  ist,  desto  mehr  Lemschritte  benotigt  das  Training  bis  zur  Konver¬ 
genz. 
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Netz:2-2-1,Takt=1000,  Max.  Zyklen=2000,  ADD=14 
Stopbedingung:  totaler  Lemfehler<0,1 

1.  altes  Neuron  mit  RUN=5und  RUNAB=3 

2.  neues  Neuron  mit  Rn=31,  =3 

Abb.  4.39:  Vergleicb  der  EmpGndlichkeit  des  Verfahrens  bzgl.  der  Zahler- 
lange  des  INDIE  fur  Beispiel  P2 


4.4. 2. 3  Skalierbarkeit 

Mit  dem  Beispiel  BEZ«S  lafit  sich  die  Skalierbarkeit  des  Verfahrens  qualitativ 
gut  analysieren,  indem  die  Anzahl  der  zu  erkennenden  Buchstaben  festge- 
legt  wird  und  man  die  GroEe  der  Bitmaps  Schritt  fur  Schritt  vergroEert. 
Auf  diese  Weise  nimmt  die  Anzahl  der  Gewichte  in  dem  dafur  aufgebauten 
Netz  zu,  wahrend  der  Schwierigkeitsgrad  des  zu  losenden  Problems  fast  un- 
verandert  bleibt  (weil  zumindest  die  Anzahl  der  zu  suchenden  Trennlinien 
im  Vektorraum  der  Trainingsmuster  dadurch  nicht  anwachst).  Man  kann 
den  Vorgang  umgekehrt  geschehen  lassen,  um  die  sogenannte  Netzkapazitat 
(siehe  [55])  eines  fertig  gestalteten  Netzes  abzuschatzen,  d.h.  mit  einer  fe- 
sten  Anzahl  der  Neuronen  im  Netz  laEt  sich  die  Klassenanzahl  (die  Anzahl 
der  zu  erkennenden  Buchstaben)  vergrofiem,  bis  dann  das  Netz  nicht  mehr 
konvergiert. 

Zu  Anfang  wurde  ein  35-20-7-Netz  fur  das  Beispiel  BE7^(7)  gebaut.  Da- 
mit  bestehen  867  Gewichte  im  Netz.  Danach  wurde  das  Netz  zu  einem 
63-32-7-Netz  fur  das  Beispiel  BEq*7(7)  ausgebaut,  was  2279  Gewichte  im 
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9  10  11  12  13  14  15  16 


ADD=14,  Rn=31,  =3rTakt=1000 

1. 3-8-1 -Netz  fur  P3-Beispiel  2.  4-20-1-Netz  fur  P4-Beispiel 


Abb .  4.40:  EmpGndlichkeit  des  Trainings  bzgl.  der  Zahlerlange  des  INDIE 
als  Lemparameter  bei  den  Beispielen  P3  und  P4 


Netz  ergibt.  Fur  das  Beispiel  PPio*8(7)  ist  ein  80-32-7-Netz  zum  Einsatz 
gekommen,  welches  insgesamt  2823  Gewichte  besitzt.  Die  Abbildung  4.41 
zeigt  die  Ergebnisse  der  Software-Simulationen. 

Aus  der  Abbildung  4.41  ist  zu  erkennen,  dafi  die  Zunahme  der  NetzgroSe 
keinerlei  negative  Auswirkungen  auf  der  Konvergenz  des  Trainings  ausiibt, 
solange  sich  der  Schwierigkeitsgrad  des  zu  losenden  Problems  nicht  andert. 

4.4. 2.4  Nichtbinare  Aufgabenstellungen 

Alle  obigen  Erfolge  wurden  mit  binaren  Beispielen  erreicht.  Dagegen  hat 
das  Training  mit  nicht  binaren  Aufgaben,  wie  Beispiel  BEN81  keine  Erfolge 
gezeigt.  Sogar  mit  s  =  4  (mit  nur  vier  Buchstaben  T,I,D,N  und  einem  16- 
32-5-Netz)  fiihrt  das  Training  zur  Divergenz,  obwohl  die  gleiche  Aufgabe 
durch  den  traditionellen  BP-Algorithmus  leicht  erledigt  werden  kann.  Die 
Abbildung  4.42  zeigt  das  Trainingsergebnis  eines  traditionellen  BP-Netzes 
fur  das  Beispiel  BEN52-  Es  ist  deutlich  zu  sehen,  daft  die  Konvergenz  des 
Trainings  sehr  schnell  erreicht  wird. 

Yon  daher  lafet  sich  vermuten,  dafi  die  hier  erlauterte  Technik  fur  die  nicht- 
binaren  Anwendungen  nicht  geeignet  ist.  In  binaren  Fallen  sind  die  zu 
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Abb.  4.41:  Trainingsergebnisse  fiir  Beispiele  BEz+8  mit  unterschiedlichen 
Groften 

bearbeitenden  Werte  wegen  der  stochastischen  Codierung  zwar  nicht  nur 
Einsen  oder  Nullen,  aber  sie  liegen  in  der  Nahe  von  Eins  oder  Null.  Mit 
anderen  Worten  ist  eine  Abweichung  von  Eins  oder  Null  der  normale  Fall. 
Gibt  es  ein  Mafi  dafiir,  wie  grofi  diese  Abweichung  sein  konnte?  Um  die 
Diskussionen  weiter  fiihren  zu  konnen,  werden  die  folgenden  Begriffe  beno- 
tigt.  Dabei  werden  alle  Werte  nur  im  Wahrscheinlichkeitsbereich  betrachtet, 
wenn  es  nicht  explizit  anders  ausgesprochen  wird. 

Sei  x  =  {xuX2,  ein  Trainingsvektor 

D(u,v)  Absoluter  Abstand  zwischen  den  reellen  Werten  u  und  v,  d.h. 
D(u,v)  =  \u  -  v| 

^(0, 1)  Maximale  Abweichimg  des  Vektors  x  vom  Wertebereichsrand. 

^(0, 1)  =  2 max(  min  D{xilj))  (4.21) 

*  3 — 0,1 

Angesichts  der  obigen  Definitionen  kann  0f(0, 1)  nur  im  Intervall  [0,1]  liegen. 
Wenn  alle  Komponenten  des  Vektors  x  =  (xllx2i ... ,xn )  binare  Werte  sind, 
hat  $g(Q,  1)  den  Wert  Null.  Dagegen  wird  0*( 0, 1)  Eins,  wenn  eine  der  Kom- 
ponenten  den  Wert  0,5  annimmt.  Dadurch  hat  man  ein  Mafi  bekommen,  mit 
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Abb.  4.42:  Em  traditionelles  BP-Netz  far  das  Beispiel  BEN52 

dem  man  die  Anwendbarkeit  des  Verfahrens  quantitativ  abschatzen  kann. 
Je  grower  0*(O, 1)  ist,  desto  weiter  liegen  die  Komponenten  der  Vektoren 
vom  Rand  des  Intervalls  [0,1]  entfernt.  Folgende  Zuordnung  ist  eine  triviale 
Lernaufgabe: 

Eingangsvektor  Ausgangsvektor 

(0.2  0.5  0.95)  0.5 

(0.95  0.2  0.5)  0.2 

(0.5  0.2  0.9)  0.9 

die  mit  einem  traditionellen  BP-Algorithmus  leicht  gelost  werden  kann  (sie- 
he  Abbildung  4.43).  Dagegen  hat  das  Training  mit  dem  vorgestellten  Ver- 
fahren  trotz  der  einfachen  Aufgabe  keinen  Erfolg.  Der  Grund  zum  Mifierfolg 
ist  leicht  zu  finden:  9g( 0, 1)  ist  fur  alle  Eingangsvektoren  gleich  Eins. 

Das  Trainingsergebnis  mit  dem  XOR-Beispiel  liefert  Konvergenz,  solange 
0j?(O, 1)  aller  vier  Mustervektoren  kleiner  als  0,5  ist.  Ob  dieser  Ansatz  auf 
alle  Aufgaben  verallgemeinert  werden  kann,  konnte  aus  Zeitgriinden  noch 
nicht  studiert  und  bestatigt  werden.  Andererseits  ist  0^(0, 1)  nur  ein  Mafi 
fiir  jeden  einzelnen  Mustervektor.  Betrachtet  man  die  gesamte  Trainings- 
menge  als  Ganzes,  mufi  ein  anderes  vemunftiges  Mafi  eingefiihrt  werden. 
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Abb .  4.43:  Lernvorgang  eines  traditionellen  BP-Netzes  for  ein  triviales 
Beispiel 


Der  Begriff  Maximale  Abweichung  ist  fur  binare  Falle  ebenfalls  niitzlich, 
weil  die  Komponenten  der  Trainingsvektoren  wegen  stochastischer  Streuun- 
gen  nicht  genau  gleich  dem  Wert  Eins  oder  Null  sind.  In  dem  Fall  konnte 
ein  Trainingsvektor  immerhin  aus  dem  Datensatz  herausgenommen  werden, 
wenn  seine  Maximale  Abweichung  0^(0, 1)  wesentlich  zu  grofi  ist. 

Aus  den  Ergebnissen  der  obigen  Software-Simulationen  lassen  sich  einige 
Schluftfolgerungen  iiber  die  Eigenschaften  des  Verfahrens  ziehen,  die  im 
nachstehenden  Abschnitt  detailliert  besprochen  werden.  Zu  diesem  Zeit- 
punkt  soil  einiges  iiber  die  Wirkungen  des  Einsatzes  des  ADDIE  als  Tief- 
paBfilter  (TPF)  gesagt  werden.  Die  Verwendung  des  ADDIE  als  TPF  gegen 
die  starke  stochastische  Streuung  hat  in  der  Praxis  kaum  positive  Wirkun¬ 
gen  gehabt,  obwohl  es  bei  dem  XOR-Beispiel  Vorteile  aufgewiesen  hat.  Der 
Grund  ist  die  Anlaufzeit,  die  das  ADDIE  braucht,  urn  sich  bei  einem  Muster- 
wechsel  am  Netzeingang  an  die  neue  Neuronaktivitat  innerhalb  des  Netzes 
anzupassen.  Wenn  ein  neuer  Mustervektor  am  Netzeingang  angelegt  wird, 
miissen  alle  Neuronen  im  Netz  darauf  reagieren.  Dies  fiihrt  dazu,  dafi  ihre 
Aktivitaten  nach  oben  oder  unten  springen.  Diese  Anderung  kann  nicht 
kontinuierlich  stattfinden.  Andererseits  ist  die  TPF-Wirkung  des  ADDIE 
nur  bei  langzeitiger  Beobachtung  sichtbar.  Beim  TVaining  findet  der  Wech- 
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sel  des  Mustervektors  meistens  innerhalb  der  Grofienordnung  von  einigen 
tausend  Takten  statt.  Demzufolge  pendelt  der  Wert  des  ADDIE  zwischen 
zwei  sehr  unterschiedlichen  Werten  (z.B.  Null  und  Eins)  herura  und  erreicht 
nie  einen  stabilen  Zustand.  Daher  kann  es  auf  das  Training  auch  nur  einen 
negativen  Einflufi  ausiiben,  obwohl  es  die  stochastischen  Streuungen  zu  un- 
terdriicken  vermag. 

4.5  Schlufibemerkung 

Die  vorgestellten  Ergebnisse,  die  durch  Software-Simulationen  mit  obigen 
Beispielen  erhalten  wurden,  lassen  sich  zu  folgenden  Punkten  zusammen- 
fassen,  welche  die  Schluftfolgerungen  aus  den  in  der  vorliegenden  Arbeit 
durchgefiihrten  Untersuchungen  darstellen: 

•  Das  Gegenstrom-Verfahren,  das  vor  dieser  Arbeit  als  mogliche  Ursa- 
che  der  Divergenz  des  Trainings  angesehen  wurde,  liefi  keinerlei  nega¬ 
tive  Einfliisse  auf  die  Konvergenzeigenschaften  des  vorgestellten  Ver- 
fahrens  erkennen.  Aufterdem  hat  die  Verwendung  des  Gegenstrom- 
Verfahrens  gegeniiber  dem  Online-Training  kaum  nennenswerte  Ge- 
schwindigkeitsunterschiede  bei  der  Konvergenz  gebracht.  Dies  ist  der 
Befund  aus  Software-Simulationen  mit  zahlreichen  Beispielen.  Ob 
dies  Allgemeingultigkeit  hat,  benotigt  jedoch  weitere  theoretische  Ana- 
lysen  in  der  Zukunft. 

•  Die  Einfuhrung  des  modifizierten  Neurons  hat  gegeniiber  seinem  Vor- 
ganger  deutliche  Verbesserungen  der  Konvergenz  gebracht.  Dies  ist 
sowohl  bei  seiner  theoretischen  Analyse  als  auch  bei  den  Software- 
Simulationen  mit  zahlreichen  Beispielen  bestatigt  worden.  Erstens 
haben  viele  Beispiele  nun  konvergiert,  die  vorher  unter  Verwendung 
des  alten  Neurons  in  die  Divergenz  geraten  sind.  Zweitens  ist  die  Aus- 
wahl  der  Trainingsparameter  unter  den  neuen  Neuronen  viel  flexibler 
als  zuvor.  Mit  anderen  Worten  ist  ein  erfolgreiches  Training  nicht  so 
stark  von  der  richtigen  Auswahl  der  Trainingsparameter  abhangig  wie 
zuvor.  Dies  ist  besonders  fur  die  Hardware-Implementierung  des  Ver- 
fahrens  geeignet,  weil  solche  Parameter  wie  Zahlerlange  von  INDIE 
und  ADDIE,  R  —  n,  5  usw.  auf  allgemeine  geltende  Werte  in  gewissen 
Grenzen  festgelegt  werden  konnen.  Offensichtlich  diirfte  das  modi- 
fizierte  Neuron  nicht  mehr  Chipflache  benotigen  als  sein  Vorganger, 
weil  der  wesentliche  Teil  ein  Schieberegister  darstellt  und  der  Kom- 
parator  dadurch  weggelassen  werden  kann,  indem  das  Schieberegister 
mit  einem  gewissen  Wert  (je  nach  der  Grofie  der  Schwelle  Rt)  vor- 
geladen  wird  und  das  Uberlauf-Bit  des  Schieberegisters  als  Ausgang 
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des  Komparators  dient.  Der  genaue  Platzbedarf  des  modifizierten 
Neurons  kann  allerdings  nur  durch  den  Entwurf  eines  entsprechenden 
Prototypschaltkreises  ermittelt  werden. 

•  Das  verwendete  ^-Mittelungsverfahren  verandert  die  Konvergenzei- 
genschaft  des  Verfahrens  nicht,  sofern  eine  steilere  S-Punktion  zur 
Kompensation  seines  Einflusses  genutzt  wird.  Dasselbe  gilt  ebenfalls 
fur  die  [0, 1]-Einschrankung.  Bei  gleichzeitigem  Auftreten  der  beiden 
Einschrankungen  ist  die  Verwendung  einer  sehr  steilen  S-Funktion  er- 
forderlich.  Die  neue  S-Funktion  kann  diese  Forderung  besser  erfiillen 
als  ihre  Vor ganger.  Wenn  die  alte  S— Funktion  sehr  steil  wird,  verhalt 
sie  sich  fast  wie  eine  Stufenfunktion  und  ihre  Ausgangsfolge  hat  sehr 
schlechte  statistische  Eigenschaften  gegeniiber  einer  echte  Zufallsfolge. 
Aufierdem  hat  die  B-Funktion,  die  als  Vertreterin  der  Ableitung  der 
S-Funktion  dient,  keinen  logischen  Zusammenhang  mit  der  Steilheit 
der  S-Funktion.  Demzufolge  kann  die  Abstiegsrichtung  falsch  fest- 
gestellt  werden  und  dadurch  kann  das  Training  langsamer  oder  gar 
nicht  konvergieren.  Dagegen  bleibt  die  neue  S— Funktion  unter  starker 
Steilheit  immer  gut  in  S-Form  und  statt  der  B-Funktion  wird  eine 
geschatzte  Ableitung  der  neuen  S-Funktion  fur  das  Berechnen  der 
Suchrichtung  verwendet,  die  eine  deutliche  mathematische  Beziehung 
zur  Steilheit  der  neuen  S-Funktion  hat,  d.h.  die  geschatzte  Ablei¬ 
tung  variiert  mit  der  Anderung  der  Steilheit  der  neuen  S-Funktion. 
Demzufolge  kann  eine  angemessenere  und  genauere  Abstiegsrichtung 
berechnet  werden.  Dies  kann  die  Erklarung  sein,  warum  die  Ein- 
fuhrung  des  modifizierten  Neurons  die  Konvergenzeigenschaften  des 
Verfahrens  verbessern  kann. 

•  Die  Skalierbarkeit  ist  nicht  von  dem  Verfahren  selbst,  sondern  vom 
Schwierigkeitsgrad  der  zu  losenden  Probleme  abhangig.  Aus  diesem 
Grund  fallt  es  schwer,  die  Skalierbarkeit  des  vorliegenden  Verfahrens 
unabhangig  von  den  zu  losenden  Aufgabenstellungen  vorherzusagen. 
Die  Ergebnisse  der  obigen  Simulationen  mit  unterschiedlichen  Bei- 
spielen  zeigen,  dafi  sich  ein  Netz  mit  einer  Grofienordnung  von  knap- 
pen  dreitausend  Gewichten  (Beispiel  BEio*8(7))  erfolgreich  trainieren 
lafit.  Die  weitere  Steigerung  der  Netzgrofie  bis  zu  etwa  10K  Gewich¬ 
ten  ist  absehbar  moglich.  Dadurch  kann  quahtativ  die  Schlufifolgerung 
gezogen  werden,  dafi  eine  Vergrofierung  des  Netzes  kein  prinzipielles 
Hindernis  fur  einen  erfolgreichen  Einsatz  des  Verfahrens  bildet.  Da¬ 
gegen  ist  der  Schwierigkeitsgrad  des  zu  losenden  Problems  ein  ent- 
scheidender  Faktor  fur  die  Konvergenz  des  Verfahrens.  Bei  manchen 
Aufgabenstellungen  kann  sogar  das  Training  eines  kleinen  Netzes  oh- 
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ne  Erfolg  bleiben.  In  dem  Sinne  ist  eine  allgemeine  Aussage  (iber  die 
Skalierbarkeit  des  Verfahrens  nicht  moglich.  Fur  diejenigen  Aufgaben- 
stellungen,  die  das  Verfahren  behandeln  kann,  ist  jedoch  eine  Aussage 
der  Skalierbarkeit  absehbar  moglich.  Deshalb  ist  es  besser,  zu  fragen, 
mit  welchen  Problemklassen  das  vorgestellte  Verfahren  gut  umgehen 
kann. 

•  Angesichts  des  Mechanismus  des  Verfahrens  und  der  Ergebnisse  der 
Software-Simulationen  konnte  allgemein  behauptet  werden,  daft  das 
vorgestellte  Verfahren  nur  fur  binare  Aufgabenstellung  geeignet  ist. 
Dies  kann  als  eine  notwendige  Voraussetzung  fur  die  Konvergenz  des 
Trainings  mit  dem  Verfahren  betrachtet  werden.  In  dieser  Arbeit  wur- 
den  viele  Software-Simulationen  mit  unterschiedlichen  nichtbinaren 
Beispielen  durchgefiihrt  und  keine  davon  hat  einen  Trend  zur  Konver¬ 
genz  gezeigt.  Sogar  bei  einer  einfachen  Approximation  einer  normalen 
Gaufi-Funktion  ist  das  Training  in  die  Divergenz  geraten.  Dies  deutet 
an,  daft  das  Verfahren  nicht  in  der  Lage  ist,  mit  nichtbinaren  Auf- 
gabenstellungen  umzugehen.  Es  mu£  jedoch  betont  werden,  dafi  die 
Komponenten  der  Trainingsvektoren  einer  binaren  Aufgabenstellung 
nicht  nur  Nullen  und  Einsen  sein  miissen,  solange  ihre  Werte  in  der 
Nahe  von  Null  oder  Eins  liegen.  Genauer  gesagt,  konnte  das  Trai¬ 
ning  doch  noch  konvergieren,  wenn  die  sogenannte  Maximale  Ab- 
weichung  des  Vektors  x  vom  Wertbereichsrand  Null  oder  Eins,  d.h. 
Os (0, 1)  kleiner  als  0,5  ist.  Die  binare  Aufgabenstellung  ist  auch  nicht 
unbedingt  eine  hinreichende  Voraussetzung,  weil  bei  einigen  binaren 
Beispielen  das  Training  nicht  immer  konvergiert.  Es  ist  aufgefallen, 
dafc  lediglich  solche  Minimumstellen  durch  das  Verfahren  erreicht  wer¬ 
den  konnen,  die  am  Eand  des  gesamten  Gewichtsrainns  liegen.  Eine 
mogliche  Erklarung  ware,  daft  die  Werte  der  Gewichte  in  der  Nahe  des 
Ursprungs  wegen  starker  stochastischer  Streuungen  nie  stabil  bleiben 
und  somit  keine  stabilen  Zustande  hergestellt  werden  konnen.  Fur 
die  Richtigkeit  dieser  Aussage  mufi  eine  weitere  umfangreiche  theore- 
tische  Analyse  durchgefiihrt  werden.  Bis  dahin  gilt  dies  lediglich  als 
eine  Vermutung. 
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5.1  Zusammenfassung 

Wie  schon  in  der  Einleitung  beschrieben  wurde,  konnte  der  Einsatz  von 
stochastischen  Rechenwerken  eine  potentielle  Losung  und  ein  interessantes 
Forschungsgebiet  fiir  die  digitale  Implementierung  lemfahiger  Neurochips 
sein.  Der  Ausfall  der  konventionellen  Multiplikation  kann  Chipflache  ein- 
sparen  und  die  unscharfe  Datenverarbeitung  kann  den  Trainingsvorgang  des 
Netzes  beschleunigen,  weil  das  Training  wegen  des  Bestehens  der  stochasti- 
schen  Streuungen  in  diesem  Fall  nicht  so  leicht  in  einem  lokalen  Minimum 
steckenbleibt  wie  bei  dem  traditionellen  BP-Algorithmus. 

Den  Ausgangspunkt  der  Arbeit  bilden  die  Resultate  von  Riemschneider[51], 
der  u.a.  eine  auf  stochastischen  Rechenwerken  basierende  parallele  Hard¬ 
ware  fur  Backpropagation-Netze  implementiert  hat.  Die  dort  vorgestellten 
kaskadierbaren  dezentralen  Zufallsgeneratoren,  speichernden  Glieder  (IN¬ 
DIE  und  ADDIE),  Nichtlinearitaten,  sowie  deren  Trainingsmechanismus, 
bei  dem  die  Lern-  und  Arbeitsphase  gleichzeitig  auftreten  (das  sogenannte 
Gegenstrom-Verfahren),  wurden  hier  ubernommen  und  weiter  untersucht. 
Das  Ziel  der  Arbeit  war  es,  das  in  [51]  vorgestellte  Verfahren  einer  erweiter- 
ten  wissenschaftlichen  Analyse,  Bewertung  und  einer  moglichen  Verbesse- 
rung  zu  unterziehen.  Insbesondere  wurden  Aussagen  iiber  die  Auswahl  der 
Netzparameter,  die  Wirkungen  des  Gegenstrom-Verfahrens  sowie  der  ande- 
ren  einschrankenden  EinfluiSgrofien,  und  vor  allem  die  Abschatzung  iiber  die 
Skalierbarkeit  und  Anwendbarkeit  des  Verfahrens  durch  zahlreiche  Beispiele 
mit  Software-Simulationen  gemacht.  Der  Weg  zu  diesem  Ziel  hat  sich  in 
folgende  Schritten  aufteilen  lassen: 

In  der  ersten  Stufe  der  Arbeit  wurde  das  vorgestellte  Verfahren  mit  dem 
konventionellen  BP-Algorithmus  in  Beziehung  gesetzt.  Dadurch  wurde  eine 
I:l-Abbildung  der  Trainingsparameter  zwischen  beiden  Algorithmen  herge- 
stellt.  Daraus  wurde  die  Unter-  und  Obergrenzen  der  Trainingsparameter 
mathematisch  hergeleitet,  welche  fiir  die  Auswahl  der  Trainingsparameter 
als  Leitfaden  dienen  konnen. 

Die  zweite  Stufe  behandelte  die  Analyse  des  Unterschieds  zwischen  dem  vor¬ 
gestellten  Verfahren  und  dem  konventionellen  BP-Algorithmus.  Das  fiihr- 
te  zu  einer  Liste  potentiell  einschrankender  Einflul&grofeen,  deren  Auswir- 
kungen  auf  die  Konvergenzeigenschaften  des  vorgestellten  Verfahrens  aus- 
fiihrlich  untersucht  wurden.  Danach  wurden  mogliche  Mafcnahmen  gegen 
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die  Nebenwirkungen  der  Einschrankungen  ergriffen  und  die  entsprechende 
Technik  zur  Verbesserung  des  Verfahrens  erlautert  und  softwaretechnisch  fur 
die  Simulation  implementiert.  Mit  geeigneten  Beispielen  wurden  die  aus  der 
theoretischen  Herleitung  gewonnenen  Aussagen  durch  Software-Simulation 
bestatigt.  - 

In  der  letzten  Stufe  wurde  ein  Simulator  fur  die  Software-Simulation  des 
ganzen  Netzes  aufgebaut,  welcher  das  vorgestellte  Verfahren  taktgenau  und 
hardwarenah  simuliert  und  mit  der  objektorientierten  Programmiersprache 
C++  geschrieben  wurde.  Der  Simulator  hat  ebenfaUs  eine  fensteronen- 
tierte  Benutzeroberflache  und  ist  damit  leicht  zu  bedienen.  Jedoch  ist  die 
Software-Simulation  fur  groEe  Netze  sehr  zeitaufwendig  und  kann  sogar 
Tage  Oder  Wochen  dauern.  Daher  ist  es  wichtig,  die  passenden  Problem- 
klassen  fur  die  Software-Simulation  zu  wahlen.  Aus  diesem  Grimd  wurden 
zunachst  die  zu  behandelnden  Problemklassen  besprochen.  Mit  den  Ergeb- 
nissen  der  Software-Simulation  wurden  dann  einige  wichtige  SchluEfolge- 
rungen  gezogen,  die  der  Verbesserung  und  Erweiterung  des  Verfahrens  und 
eines  moglichen  Einsatzes  in  absehbaren  Anwendungen  als  ein  Wegweiser 
dienen  konnen. 

5.2  Perspektiven 

Das  hier  untersuchte  Verfahren  zahlt  zur  Art  der  sogenannten  Pulsed  Neural 
Networks.  Im  Gegensatz  zu  konventionellen  ANNs,  in  denen  die  zu  verarbei- 
tenden  Informationen  durch  kontinuierliche  DatengroEen  reprasentiert  und 
zwischen  Verarbeitungseinheiten  (Neuronen)  iibertragen  werden,  verwenden 
Pulsed  Neural  Networks  diskontinuierliche  DatengroEen,  namlich  Pulse,  urn 
Informationen  darzustellen  und  zu  verarbeiten.  Neue  Forschungsergebnisse 
aus  dem  Gebiet  der  biologischen  neuronalen  Netze  haben  aufgezeigt,  daE 
dies  genau  die  Arbeitsweise  eines  biologischen  Neuro-Systems  ist.  Diese 
Tatsache  regt  viele  Wissenschaftler  zur  Forschung  auf  diesem  Gebiet  an 
[40].  Jedoch  findet  man  sehr  wenig  iiber  die  auf  stochastischen  Bitstromen 
basierenden  neuronalen  Netze  und  ihre  Hardware-Implementierung  in  der 
Literatur,  obwohl  diese  zu  einer  Untergruppe  der  Pulsed  Neural  Networks 
gehoren.  Dadurch  bestehen  noch  viele  offene  Fragen  auf  diesem  Forschungs- 
gebiet,  die  vielleicht  noch  mehr  Wissenschaftler  aus  vielen  Disziplinen  anre- 
gen  konnten.  Daher  besteht  kein  Zweifel  daran,  da£  noch  viele  offene  Fragen 
nach  dem  Abschlufi  der  vorliegenden  Arbeit  bleiben,  die  in  der  Zukunft  wei- 
ter  untersucht  werden  sollen. 

So  sind  beispielsweise  Untersuchungen  der  tatsachlichen  Platzbelegung  der 
modifizierten  Neuronen  erforderlich,  wenn  sie  hardwaremafiig  implementiert 
werden.  Bisher  wurde  nur  eine  sehr  grobe  Abschatzung  durch  Vergleich 
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mit  dem  Blockschema  der  alten  Vorganger  durchgefuhrt.  Der  Platzbedarf 
derartiger  Neuronen  auf  dem  Chip  ist  ein  sehr  wichtiger  Faktor  fur  die 
Beurteilung,  ob  die  vorgeschlagenen  modifizierten  Neuronen  aufier  ihren 
verbesserten  Eigenschaften  hardwaremafiig  ebenfalls  vorteilhaft  sind. 
Bisher  konnte  eine  Aussage  zur  Losbarkeit  der  Aufgabenstellung  nur  durch 
eine  begrenzte  Anzahl  von  Beispielen  getroffen  werden.  Aufierdem  ist  die 
Aussage,  dafi  nur  binare  Aufgaben  fur  das  Verfahren  losbar  sind,  keine  hin- 
reichende  Bedingung,  d.h.  das  auf  dem  vorgestellten  Verfahren  beruhende 
Netz  mufi  sich  nicht  bei  irgendeiner  binaren  Aufgabe  zwangslaufig  mit  Er- 
folg  trainieren  lassen.  Es  ware  ideal,  wenn  eine  hinreichende  Bedingung  fur 
die  Losbarkeit  einer  Problemklasse  theoretisch  hergeleitet  werden  konnte. 
Aber  dies  ist  keine  leichte  Aufgabe,  weil  sich  die  Abbildung,  die  ein  ANN 
reprasentiert,  meistens  nicht  analytisch  darstellen  lafit.  Ein  anderer  Weg 
ist  es,  durch  zahlreiche  Software-Simulationen  und  die  daraus  erhaltenen 
umfangreichen  Ergebnissen  eine  statistische  Aussage  dariiber  zu  erhalten. 
Dafur  ist  eine  Verbesserung  des  bisherigen  Softwaresimulators  notwendig. 
Diese  Verbesserung  konnte  sich  in  zwei  Richtungen  bewegen.  Erstens  konnte 
die  Benutzer-Schnittstelle  verbessert  werden,  so  da£  die  Gewichtsanderun- 
gen  und  Ausgaben  jedes  Neurons  wahrend  des  Trainings  quasi  in  Echtzeit 
grafisch  dargestellt  werden  konnen.  Damit  kann  man  den  Trainingsvorgang 
besser  verfolgen  und  die  Werte  von  bestimmten  Gewichten  beim  Training 
nach  Bedarf  manuell  andern.  Dies  bietet  die  Moglichkeit,  das  Training  aus 
einem  lokalen  Minimum  schnell  herauszufiihren.  Zweitens  besteht  die  Mog¬ 
lichkeit  der  Parallelisierung  des  Simulators.  Dies  ist  eigentlich  eine  intrin- 
sische  Eigenschaft  eines  neuronalen  Netzes,  weil  die  Informationsverarbei- 
tung  nur  lokal  stattfindet.  Wenn  die  Simulation  des  Verfahrens  auf  einem 
Multiprozessor-Rechner  echt  parallel  laufen  kann,  wird  der  Zeitaufwand  fiir 
die  Simulation  eines  relativ  grofien  Netzes  deutlich  abnehmen. 
fiber  die  Skalierbarkeit  des  vorliegenden  Verfahrens  konnte  bisher  ebenfalls 
nur  eine  sehr  grobe  Abschatzung  durch  Simulation  mit  begrenzten  Beispie¬ 
len  getroffen  werden.  Mit  Hilfe  des  Gesetzes  der  groften  Zahl  aus  der  Theorie 
der  Wahrscheinlichkeit  imd  Statistik  (siehe  Anhang  B)  konnte  moglicher- 
weise  eine  quantitative  Aussage  theoretisch  hergeleitet  werden.  Der  Aus- 
gangspunkt  besteht  darin,  dafi  die  Eingangsgrofie  eines  Neurons  als  eine 
Zufallsgrofie  X$  und  alle  Eingange  des  betroffenen  Neurons  als  eine  Folge 
{X<}  von  Zufallsgrofien  betrachtet  werden.  Ein  zu  X*  gehoriges  Elementar- 
ereignis  ist  somit  ein  reeller  Wert,  der  im  Interval  [0,1]  liegt.  Er  wird  von 
dem  gerade  am  Netzeingang  angelegten  Trainingsmuster  bestimmt.  Daher 
ist  die  Anzahl  der  zur  ZufallsgroEe  X*  gehorigen  Elementarereignisse  von 
der  Anzahl  K  der  zur  Verfiigung  stehenden  Trainingsmuster  abhangig.  In 
diesem  Fall  wird  die  Anzahl  der  Zufallsgroften  in  der  Folge  {X*}  gleich  der 
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Anzahl  n  der  Eingange  eines  Neurons.  Nun  kann  man  mit  Hilfe  des  Gesetzes 
der  groften  Zahl  eine  Obergrenze  fiir  n  herleiten.  Wird  die  Obergrenze  der 
Eingange  eines  Neurons  gefunden,  kann  eine  Aussage  iiber  die  Obergrenze 
des  gesamten  Netzes  getroffen  werden. 

Wegen  der  Nebenwirkung  seiner  Anlaufzeit  hat  die  Verwendung  des  TPF 
zum  Unterdriicken  der  Streuungen  keinen  signifikanten  Gewinn  gebracht. 
Ob  noch  andere  Techniken  fur  diesen  Zweck  bestehen,  ist  ebenfails  erne 
Untersuchung  zur  Verbesserung  des  Verfahrens  wert.  Die  starke  stochasti- 
sche  Streuung  in  der  Nahe  des  Ursprungs  verfalscht  die  Suchrichtung  des 
Abstiegs  meistens,  besonders  wenn  die  S-Funktion  sehr  steil  ist.  Es  konnte 
eine  Losung  sein,  andere  bekannte  Filter  aus  dem  Gebiet  der  Elektrotechnik 
auszuprobieren,  soweit  sie  zum  Verfahrensmechanismus  passen. 
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A  Simulationssoftware 


A.l  Aufbau  des  Programms 

Der  Software-Simulator,  der  den  Hardware- Vorgang  des  Verfahrens  takt- 
genau  simuliert,  wurde  in  der  Microsoft-Visual-C++-Umgebungunter  An- 
wendung  der  Microsoft  Foundation  Classes  (MFC)  erstellt.  Dabei  handelt 
es  sich  um  eine  fensterorientierte  SDI-Anwendung  ( Single  Document  In¬ 
terface1),  welche  das  Training  der  Netze  mit  einer  beliebigen  Anzahl  von 
Gewichten  in  der  Ausgangsschicht  und  der  verborgenen  Schicht  und  unter- 
schiedlichen  Trainingsstrategien  (z.B  Batch,  Online,  Gegenstrom-Verfahren, 
Teil-  oder  Vollverbindung,  usw)  simulieren  kann.  Die  Simulation  des  vor- 
geschlagenen  Verfahrens  durch  Software  ist  sehr  zeitaufwendig.  Aus  die- 
sem  Grund  soil  der  Simulator  in  der  Lage  sein,  die  Zwischenergebnisse 
des  Trainings  jederzeit  beobachten  oder  iiberpriifen  sowie  den  Lernvor- 
gang  gegebenenfalls  jederzeit  unterbrechen  zu  konnen.  Der  Zeitaufwand 
kann  damit  optimal  gestaltet  werden.  Aus  diesem  Grund  wird  die  so- 
genannte  Multi-Threading- Technik  verwendet.  Der  Simulator  hat  wah- 
rend  des  Simulations-Durchlaufs  zwei  gleichzeitig  laufende  Threads,  namlich 
einen  Training-Thread  fur  die  Ausfiihrung  des  Verfahrens  selbst  und  einen 
Control-Thread  fur  die  Uberwachung  des  Lemvorgangs. 

A .  1 . 1  Zufallsquelle 

Die  Zufallsquelle  spielt  im  vorgeschlagenen  Verfahren  die  entscheidende  Rol- 
le,  weil  sie  zahlreiche  unabhangige  Hilfsbitfolgen  (hier  ist  von  der  0,5-Folge 
die  Rede),  die  fiir  die  Codierung  der  Maschinenvariablen  und  die  korrekte 
Arbeitsweise  des  Verfahrens  zustandig  sind,  gleichzeitig  erzeugen  mufi.  Wei- 
terhin  miissen  die  erzeugten  Zufallsfolgen  bestimmte  Zufallseigenschaften 
besitzen.  In  [51]  wurde  eine  geschickte  Losung  gefunden,  bei  der  Pseudozu- 
fallsquellen,  namlich  Schieberegister  mit  und  ohne  Ruckkopplung,  verwen¬ 
det  werden.  Diese  Losung  ist  besonders  giinstig  fur  eine  digitaltechnische 
Implementierung  des  vorgeschlagenen  Verfahrens.  Im  Prototyp-Schaltkreis 
wurden  von  einem  28-Bit-Register  56  Folgen  grower  sowie  drei  Folgen  gerin- 
gerer  Verschiebung  abgeleitet  (zu  Einzelheiten  siehe  [51]).  Durch  M- fache 

xBei  einer  SDI-Anwendung  kann  zu  einem  bestimmten  Zeitpunkt  immer  nur  ein  Rah- 
menfenster  geoffnet  sein.  Entsprechend  kann  zu  jedem  Zeitpunkt  nur  ein  neuronales 
Netz  simuliert  werden. 
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Kaskadierung  solcher  Register  konnen  knapp  60  *  M  Zufallsfolgen  gleichzei- 
tig  erzeugt  werden.  Die  erzeugten  Folgen  haben  alle  iiblichen  Zufallstests 
bestanden.  Aus  dieser  Sicht  dfirfte  die  Anzahl  der  zu  erzeugenden  Zufalls¬ 
folgen  fur  die  Skalierbarkeit  des  Verfahrens  kein  Hinderais  sein. 

Wenn  man  den  Durchlauf  des  Verfahrens  taktgenau  per  Software  simulieren 
will,  kann  der  vom  Compiler  mitgelieferte  Zufallsgenerator  nicht  verwendet 
werden,  weil  er  nicht  in  der  Lage  ist,  zahlreiche  unabhangige  Zufallsfolgen 
gleichzeitig  zu  erzeugen.  So  wird  der  oben  erlauterte  Zufallsgenerator  fur 
die  Simulation  per  Software  implementiert.  Offensichtlich  ist  die  Anzahl 
der  Kaskadierungen  der  Schieberegister  von  der  Grofie  des  zu  simulierenden 
Netzes  abhangig  und  das  Verteilen  der  erzeugten  Zufallsbits  an  die  „Ver- 
brauche+  ist  von  der  Netzstruktur  bestimmt.  Mit  einer  selbst  definierten 
Klasse  unter  C++  kann  dies  leicht  realisiert  werden. 

Quelltext  5.1  Die  Klasse  des  Zufallspools 

class  CZufallpool 

{ 

int  znnr; 
int  zufallindex; 

BYTE  *  pZufall; 

long  sr(void); 

void  gor(long  sr,BYTE  *f,long  *kaska); 
public: 

CZufallpool(); 

-CZufallpool(); 

BOOL  init(  int  znn,  CWnd  *pCWnd  ); 
void  fillpool(void); 

BYTE  pob(void); 

}; 


Die  Ganzzahl  znnr  ist  das  Vielfache  von  60,  das  von  der  gesamten  Anzahl 
der  benotigten  Zufallsfolgen  im  Netz  bestimmt  wird.  Nach  dieser  ganzen 
Zahl  wird  ein  Zufallspool  dynamisch  eingerichtet,  der  bei  jedem  Takt  mit 
Zufallsbits  gefallt  werden  soli  und  dessen  Adresse  fiber  den  Zeiger  pZufall 
angesprochen  wird.  Wird  ein  Zufallsbit  von  einer  Recheneinheit  verlangt, 
kann  sie  durch  die  Methode  pob  ein  Zufallsbit  aus  dem  eingerichteten  Zufall¬ 
spool  herausholen.  Dazu  wird  am  Anfang  jedes  Taktdur chlaufs  der  Zufall¬ 
spool  mit  den  von  Schieberegisterketten  erzeugten  Zufallsbits  neu  geffillt. 
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A.  1.2  Neuronen  und  Synapsen 


Neuronen  und  Synapsen  sind  Kernstucke  eines  biologischen  neuronalen  Net- 
zes.  Bei  einem  ANN  gilt  dies  ebenfalls.  Unabhangig  davon,  welche  Gro- 
fie  oder  Topologie  ein  ANN  besitzt,  besteht  es  immer  aus  solchen  identi- 
schen  und  gleichartig  fungierenden  Kemstiicken.  Diese  Eigenschaft  pafit 
sehr  gut  zur  objektorientierten  Programmierungstechnik.  Wenn  ein  ANN 
per  Software  nachgebildet  werden  soil,  lassen  sich  zwei  grundlegende  Klas- 
sen  definieren,  namlich  Cneuron  und  Csynapse,  die  aus  CObject,  einer  der 
vordefinierten  Klassen  der  MFC,  abgeleitet  werden.  Die  objektorientierte 
Programmiermethode  hat  dabei  den  Vorteil,  dafi  Daten  und  die  dazu  geho- 
rigen  Operationen  (auch  Methoden  genannt)  gekapselt  werden.  Damit  ist 
ein  Objekt  einer  bestimmten  Klasse  in  der  Lage,  eine  zugeordnete  Aufgabe 
allein  zu  erledigen,  z.B.  Empfangen  und  Verarbeiten  der  Nachrichten  von 
der  Aufienwelt,  die  Modifikation  seines  eigenen  Zustands,  usw.  Aus  dieser 
Sicht  ist  die  objektorientierte  Programmierungstechnik  fur  die  Simulation 
eines  ANN  besonders  geeignet,  weil  ein  ANN  aus  vielen  identischen  Objek- 
ten  (  Neuronen  und  Synapsen)  besteht,  welche  die  eigenen  Aufgaben  allein 
erledigen  sollen. 

Zur  Untersuchung  der  Skalierbarkeit  des  vorgeschlagenen  Verfahrens  mufi 
das  Programm  fur  die  Simulation  in  Netzen  beliebiger  Grofce  einsetzbar 
sein.  Dabei  wird  die  in  [51]  durchgefiihrte  Diskussion  iiber  die  strukturelle 
Modellgestaltung  eines  Backpropagation-Netzes  zur  Anwendung  gebracht. 
Gemafi  der  dort  erlauterten  S-A-N-Kategorisierung  werden  Synapsen,  Ak- 
kumulationen  und  Neuronen  zusammen  als  Verarbeitungseinheiten  betrach- 
tet.  Fur  die  Software-Simulation  wird  ein  Kombi  als  eine  Verarbeitungs- 
einheit  vorgeschlagen.  Ein  Kombi  besteht  aus  einem  Neuron  und  zahlrei- 
chen  Synapsen,  die  dem  Neuron  eingangsseitig  Informationen  zuleiten.  Die 
Abbildung  A.l  zeigt  das  Funktionsschema  eines  Kombi: 

In  der  Abbildung  entsprechen  n/_i  und  ni+i  der  Neuronenanzahl  der  vorste- 
henden  Schicht  oder  der  Eingangsdimension  (falls  1  =  1),  beziehungsweise 
der  Neuronenanzahl  der  nachstehenden  Schicht  oder  der  Ausgangsdimensi- 
on.  Daher  kann  ein  Backpropagation-Netz  in  Schichten  und  jede  Schicht  in 
Kombis  zerlegt  werden.  Fur  eine  solche  Verarbeitungseinheit  wird  entspre- 
chend  eine  Klasse  CCombi  eingefuhrt,  die  ebenfalls  aus  CObject  abgeleitet 
wird.  Die  Klasse  CCombi  enthalt  einen  Zeiger,  der  auf  ein  Element  vom 
Typ  Cneuron  zeigt,  und  ein  Feld  von  Elementen  des  Typs  Csynapse.  Die 
Grofce  des  Csynapse-Feldes  wird  dynamisch  belegt,  je  nach  der  Struktur  des 
zu  simulierenden  Netzes  und  der  Dimension  der  Trainings vektoren .  Daher 
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Abb.  A.l:  Funktionsscbema  eines  Kombi 


ist  das  Programm  in  der  Lage,  Backpropagation-Netze  beliebiger  Grofie  mit 
dem  vorgeschlagenen  Verfahren  zu  trainieren2. 

Von  der  vordefinierten  MFC— Klasse  CDocument  wird  die  Klasse  CBpteil- 
netzDoc  abgeleitet,  die  zur  Speicherung  und  Verwaltung  der  eigenen  Daten 
der  Simulation  dient,  z.B.  Daten  der  Netz-Topologie,  Trainingsparameter 
und  gelernte  Gewichte  des  Netzes.  Das  Kemstiick  in  dieser  Klasse  sind  zwei 
Member- Variablen,  m_UnitArray  und  m_OutArray,  welche  die  yerborge- 
ne  beziehungsweise  die  Ausgangsschicht  des  Netzes  darstellen.  Die  beiden 
Variablen  sind  wiederum  Felder  von  Objekten  der  Klasse  CCombi.  Durch 
das  Uberladen  der  Mitgliederfunktion  Serialize  der  Klasse  CDocument  kon- 
nen  die  Daten  einer  Simulation  jederzeit  auf  die  Festplatte  gespeichert  und 
in  den  Hauptspeicher  zuriickgeladen  werden. 


A. 2  Schnittstelle  zum  Benutzer  und  Ablauf 

des  Programms 

Das  Simulationsprogramm  ist  eine  SDI— Anwendung  mit  vielfachen  Ansich- 
ten.  Die  Anwendung  enthalt  zwar  nur  ein  Rahmenfenster,  jedoch  konnen 
mehrere  Ansichtenobjekte  darin  untergebracht  werden.  Durch  Wahlen  auf 
der  Menuleiste  „Ansichtf‘  kann  man  zwischen  den  Ansichten  umschalten, 
um  beispielsweise  den  Lernfehler  wahrend  des  Traimngs  grafisch  anzeigen 
zu  lassen  oder  die  gelernten  Gewichte  und  die  Netzaktivitat  un  Text— Modus 


2Auf  Grund  der  langen  Trainingszeit  kommen  zur  Zeit  nur  zweischichtige  BP-Netze  in 
Betracht.  Es  ist  jedoch  auch  fur  Netze  mit  mehr  Schichten  einsetzbar. 
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anzuschauen  (siehe  Abbildung  A.2).  Dies  hat  den  Vorteil,  dafi  viele  niitzli- 
che  Informationen  auf  der  begrenzten  Anzeigenflache  untergebracht  werden 
konnen.  Die  Anzeige  des  Lemfehlers  wahrend  des  Trainings  geschieht  on¬ 
line.  Dadurch  kann  der  Lemvorgang  direkt  beobachtet  und  zu  jeder  Zeit 
abgebrochen  werden,  wenn  kein  Konvergenztrend  beim  Training  zu  erken- 
nen  ist. 


Simulation  auf  der  Bitstrom-Ebene  -  bpteilnetz 

^  V>.  v-w..  |  Ansicht  :  ' 


Abb.  A.2:  UmschaJten  zwischen  Ansichten 


A.2.1  Vorbereitung  der  Trainingsmuster-Datei 

Wird  vom  Training  des  BP-Netzes  gesprochen,  mufi  eine  Menge  von  Trai- 
ningsmustern  vorhanden  sein.  Alle  vorhandenen  Trainingsmuster  werden  in 
einer  Datei  untergebracht,  und  zwar  in  folgendem  Format: 

Xu  X12  *  *  •  Xin  2/ii  •  •  *  1/lm 

X21  X22  •  •  *  X2 n  2/21  *  ’  *  2/2 m 


xpl  xp2  '  *  *  xpn  2/pl  ’  ’  *  Vpm 

Xij  ist  die  Eingabe  i  des  Musters  j  und  yij  die  Ausgabe  i  des  Musters 
j  (i=l,...,n;  j=l,...,m).  n  und  m  sind  die  Dimensionen  der  Eingabe-  be- 
ziehungsweise  Zielvektoren.  Aufier  dem  Leerzeichen  und  dem  Tabulator 
werden  keine  anderen  Zeichen  als  Trennzeichen  zwischen  Daten  verwendet. 

A.2.2  Programmablauf 

Das  Programm  hat  eine  anwenderfreundliche,  grafische  Benutzeroberflache, 
die  man  leicht  bedienen  kann.  Durch  Ausfiihren  von  bpteilnetz.exe  wird  das 
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Programm  gestartet  und  eine  fensterorientierte  Oberflache  wie  in  Abbildung 
A.2  wird  aufgeschlagen. 

Durch  KUcken  des  mit  dem  Buchstaben  P  gekennzeichneten  Knopfesoder 
des  Meniipunktes  New  unter  Menu  Datei  wird  ein  Dialogfenster  geoffnet 
(siehe  Abbildung  A.3).  Dabei  handelt  es  sich  um  ein  nichtmodales  Dia¬ 
logfenster,  d.h.  das  Dialogfenster  kann  im  Gegensatz  zu  einem  modalen 
Dialogfenster  offen  bleiben,  wenn  das  Programm  fortgesetzt  wird  (fiir  Ein- 
zelheiten  siehe  [5]  und  [13]  ).  Dies  erweist  sich  als  sinnvoU,  wenn  man 
wahrend  des  Trainings  die  Trainingspaxameter  beobachten  oder  sogar  ver- 
andern  mochte.  Im  Dialogfenster  kann  die  Topologie  des  zu  simulierenden 


Abb.  A.3:  Dialogfenster  fur  die  Eingabe  der  Trainingsparameter 

Netzes  (Neuronenanzahl  in  der  verborgenen  Schicht  und  Dimensionen  der 
Ein-  beziehungsweise  Ausgangsvektoren  sowie  Verbindungsart),  die  Werte 
der  Lernparameter  (ADDIE-  und  INDIE-Zahlerlangefiir  Synapsenglieder, 
Taktanzahl,  Runlange  der  stochastischen  Automaten  fiir  Neuronen  oder  die 
Schwellenwerte  der  modifizierten  Neuronen)  und  Trainingsstil  (Codiererart, 
Neuronenart,  Reihenfolge  des  Anlegens  von  Trainingsmustem,  Initialisie- 
rungsmethode  fiir  die  Anfangswerte  der  Synapsen,  Gegenstromverfahren 
oder  Online-Training  usw.)  festgelegt  werden.  Dariiber  hinaus  werden 
auch  die  Dateinamen  der  Trainingsvektoren  und  des  Tramingsergebnisses 
und  die  Dauer  des  Trainings  (Zyklen)  angegeben.  Erst  nach  der  Bestati- 
gung  durch  den  OK-Knopf  stehen  die  angegebenen  Werte  dem  Programm 
zur  Verfiigung. 
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Eingang  zu  Hide-Layer: 

Zu  Neuron  0:  0.00  0.00  0.91 
Zu  Neuron  1:  0.00  0.00  0.04 


Hide-Layer  zu  Ausgang  : 

1.00  0.00  0.00 


Abb .  A. 4:  Anzeigen  der  Gewichte  im  Text-Format 

Nach  dem  Klicken  des  R-Knopfes  wird  das  Training  des  BP-Netzes  gestar- 
tet.  Danach  kann  man  durch  Auswahlen  der  entsprechenden  Menu-Items 
das  Training  anhalten  und  bei  Bedarf  wieder  fortfahren.  Durch  Anklicken 
des  W-Knopfes  und  seines  rechten  Nachbar-Knopfes  kann  man  sich  die  ge- 
rade  gelernten  Gewichte  im  Text-Format  oder  den  Lemfehler  im  grafischen 
Format  anzeigen  lassen  (siehe  Abbildungen  A.4  und  A.5). 

Nach  dem  Abschlufi  des  Trainings  kann  ein  Test-Yorgang  durch  Anklicken 
des  T-Knopfes  gestartet  werden.  Der  Test-Vorgang  kann  sowohl  auf  dersel- 
ben  Mustermenge,  die  fur  das  Training  verwendet  wurde,  als  auch  auf  einer 
neuen  Mustermenge,  die  dem  Netz  unbekannt  ist,  durchgefuhrt  werden. 
Die  Ausgaben  des  Netzes  zu  den  entsprechenden  Eingaben  der  Mustermen¬ 
ge  werden  im  Text-Format  angezeigt  (siehe  Abbildung  A.6).  Die  Ausgaben 
sind  die  arithmetischen  Mittelwerte  der  Netz-Ausgaben  von  mehrfachen 
Durchlaufen  des  Test-Vorgangs. 
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USELESS:! 


Anzahl  zur  Wlederholungen  fUrTest  10 
Sollwert 
0.97 

Netzwert: 

0.6G 

Sollwert: 

0.10 

Netzwert: 

0.23 

Sollwert: 

0.97 

Netzwert: 

0.87 

Sollwert 

0.10 

Netzwert 

0.22 


Abb.  A. 6:  Anzeigen  der  Netz-Ausgaben  beim  Test-Vorgang 


B 


Gesetze  der  groften  Zahl  und 
Skalierbarkeit 


B.l  Gesetze  der  groften  Zahl 

Folgende  Begriffe  wurden  aus  [14]  herangezogen: 

Definition  1:  Eine  Folge{X$}  von  Zufallsgroften  heiftt  konvergent  in  Wahr- 
scheinlichkeit  gegen  die  Zufallsgrofte  X,  wenn  fiir  beliebiges  e  >  0  gilt: 

KmP(\Xi-X\<e)  =  l  (B.l) 

Dabei  bedeutet  die  Konvergenz  in  Wahrscheinlichkeit  gegen  die  Zufallsgrofte 
X,  daft  die  Folge  Folge{X*}  im  stochastischen  Sinne  gegen  X  konvergiert. 
Mit  anderen  Worten  ist  es  im  Grenzfall  i  oo  also  „fast  sichei“ ,  daft  sich 
X{  vom  Grenzwert  X  beliebig  wenig  unterscheidet  [70].  Es  gibt  noch  ein 
starkeres  Konvergenzverhalten,  das  lautet: 

Definition  2:  Eine  Folge  {X^}  von  Zufallsgroften  konvergiert  mit  Wahr¬ 
scheinlichkeit  1  gegen  X,  wenn  gilt 


P(linii-+ ooXi  —  X)  —  1  (B.2) 

In  diesem  Fall  kann  man  sagen,  daft  die  Folge  {X*}  im  stochastischen  Sinne 
^iche:^  gegen  X  konvergiert. 

Definition  3:  Man  sagt,  eine  Folge  Xi,...  von  Zufallsgroften  ist  dem  schwa- 
chen  Gesetz  der  groften  Zahl  unterworfen,  wenn  fiir  beliebiges  e  >  0  gilt: 

n^^J>~g>*l<4  =  l  (B-3) 

EXi  ist  der  Erwartungswert  der  Zufallsgrofte  X*  und  ist  normalerweise  eine 
Konstante. 

Definition  4:  Man  sagt,  eine  Folge  Xi,...  von  Zufallsgroften  ist  dem  starken 
Gesetz  der  groften  Zahl  unterworfen,  wenn  gilt: 

(B.4) 

»=1  i—l 
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Wenn  eine  Folge  Xu...  von  Zufallsgrofien  dem  starken  Gesetz  der  grofien 
Zahl  unterworfen  ist,  darn  weifi  man,  daft  die  Folge  Zn  =  £  E”=  1  X\  “ 
1  EX{  fast  sicher  gegen  0  konvergiert.  Sind  alle  EXi  gleich,  namlich 
EXi~=  p,i  =  l,..n,  dann  konvergiert  die  Folge  Zn  fast  sicher  gegen  die 
Konstante  p. 

Satz  von  Tschebyscheff:  Ist  Xi,X2,...  eine  Folge  paarweise  unabhangi- 
ger  Zufallsgrofien,  deren  Varianzen  DX{  gleichmafiig  beschrankt  sind,  d.h. 
DXi  <  C  (eine  Konstante)  fur  alle  i,  so  ist  diese  Folge  dem  schwachen 
Gesetz  der  grofien  Zahl  unterworfen. 

Der  Satz  von  'Tschebyscheff  driickt  eine  hinreichende  Bedingung  dafur  aus, 
dafi  eine  Folge  von  Zufallsgrofien  dem  schwachen  Gesetz  der  grofien  Zahl 
unterworfen  ist. 

Satz  von  Kolmogorow:  Geniigt  die  Folge  X{  voneinander  unabhangiger 
Zufallsgrofien  der  Bedingung  E£i  ^  00 ’  s0  <^ese  Folge  dem  starken 
Gesetz  der  grofien  Zahl  unterworfen. 

B.2  Diskussion 


Sei: 

K  Anzahl  der  zur  Verfiigung  stehenden  Trainingsmuster 
n  Anzahl  der  Eingange  eines  Neurons  im  Netz 
Xj ,  yj  normierte  Trainingsvektorpaare,  j=l,2,...,K 
Wi  Gewichtsvektor  des  i-ten  Eingang  eines  Neurons,  i=l,2,...n 

Xi  eine  Zufallsgrofie  fur  den  i-ten  Eingang  eines  Neurons,  i=l,2,...n 

Wegen  der  stochastischen  Codierung  des  Trainingsvektors  und  der  Gewichte 
kann  der  Eingang  i  (i=l,2,...n)  eines  Neurons  als  eine  Zufallsgrofie  betrachtet 
werden,  obwohl  die  Werte  der  Komponenten  des  Trainingsvektors  und  der 
Gewichte  deterministisch  sind.  Das  Ergebnis  der  skalaren  Multiplikation 
von  xj  und  u (j=l,2,...,K)  kann  als  Zufallsgrofie  X{  aufgefafit  werden.  Fur 
alle  Eingange  des  Neurons  bekommt  man  eine  Folge  {Xi}  von  Zufallsgrofien. 
In  der  weiteren  Diskussion  wird  erlautert,  dafi  die  Folge  {A*}  unter  gewissen 
Annahmen  dem  starken  Gesetz  der  grofien  Zahl  unterworfen  ist. 

Die  statistische  Unabhangigkeit  der  Zufallsgrofien  wird  bei  der  Einfiihrung 
des  vorgeschlagenen  Verfahrens  vorausgesetzt.  Wegen  der  Normierung  der 
Trainingsmuster  und  Gewichte  diirfen  die  Vananzen  aller  Zufallsgrofien  nicht 
grofier  als  Eins  sein.  In  diesem  Sinn  ist  die  Bedingung  des  Satzes  von  Kol¬ 
mogorow  erfiillt.  Laut  des  Satzes  von  Kolmogorow  ist  die  Folge  {Xi}  dem 
starken  Gesetz  der  grofien  Zahl  unterworfen. 
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Aus  der  Mathematik  ist  bekannt,  daE  der  Mittelwert  eine  gate  Abschatzung 
dra  Erwartungswertes  ist,  wenn  die  Anzahi  der  Stichproben  groE  genug  ist 
ba  vorliegenden  Fall  entspricht  K,  die  Anzahi  der  zur  Verfugung  stehen- 
den  Trainingsmuster,  der  Anzahi  Stichproben.  Angenommen,  da£  hier  ein 
rem  binarer  Fall  vorliegt,  dann  sind  alle  Komponenten  der  Ttainingsmu- 
ster  entweder  Einsen  Oder  Nullen.  Wenn  K  gro£  genug  ist,  nahert  sich  ihr 
Mittelwert  nach  langer  Beobachtung  0,5,  d.h.  der  Erwartungswert  ist  qua¬ 
si  0,5.  Laut  Gesetz  von  Kolmogorow  wird  die  Folge  ±  EILi  A;  gegen  0,5 
konvergieren.  Mit  anderen  Worten,  es  pendelt  der  Wert  von  A  X  um 
0,5  bei  grofien  Werten  von  n.  Der  Term  1st  nach  der  Einfiih- 

nmg  des  N  Mittelungsverfahrens  genau  die  Eingabe  eines  Neurons.  Dieses 
Resuitat  hat  zur  Folge,  da£  in  groSen  Netzen  jedem  Neuron  nur  der  Wert 
0,5  zugefuhrt  wird,  wenn  die  Menge  der  Trainingsmuster  ebenfalls  grofi  ist. 
Bei  dieser  Situation  lafit  sich  das  Netz  nicht  mehr  trainieren.  Nach  die- 
ser  Uberlegung  konnte  man  quantitativ  herleiten,  wie  grofi  die  Anzahi  der 
Eingange  eines  Neurons  hochstens  sein  darf,  damit  das  entsprechende  Netz 
konvergiert.  Wenn  eine  solche  Abschatzung  fur  einzelne  Neuronen  ge- 
troffen  wurde,  konnte  eine  Aussage  uber  die  Skalierbarkeit  des  vorliegenden 
Verfahrens  hergeleitet  werden.  Naturlich  scheint  die  Annahme,  dafi  der  Er¬ 
wartungswert  aller  Eingange  gleich  0,5  ist,  ein  Sonderfall.  Jedoch  kann  dies 
un  vorhegenden  Verfahren  leicht  vorkommen,  weil  alle  Gewichte  im  Netz 
nut  Nullen  (m 1  Raum  der  Maschinenvariablen)  initialisiert  werden.  Damit 
ist  das  Resuitat  der  skalaren  Multiplication  von  xj  und  Wi  (j=l,2,...,K)  Null 
(im  Raum  der  Maschinenvariablen),  die  dem  Wert  0,5  im  Wahrscheinlich- 
keitsraum  entspricht. 

Die  obige  Uberlegung  entspringt  der  Beobachtung  aus  der  Software-Simu¬ 
lation,  dafi  alle  Gewichte  bei  dem  Wert  Null  (im  Raum  der  Maschinen¬ 
variablen)  steckenbleiben,  wenn  das  Netz  beim  Training  nicht  konvergiert. 
AuEerdem  zeigt  das  Verfahren  beim  Umgehen  mit  Aufgabenstellungen,  die 
erne  grofie  Anzahi  von  'Drainingsmustem  besitzen,  meistens  Schwierigkeiten 

bei  der  Konvergenz .  Die  genaue  Ursache  soU  in  der  Zukunft  weiter  studiert 
werden. 
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C  Mehrfach  verwendete 

Formelzeichen  und  Abkiirzungen 

gewichteter  Eingangsvektor  der  Schicht  l 
j-te  Komponente  von  Vektor 
all  classes  in  one  network 
Zahlerlange  des  ADDIE 
adaptives  Glied  ( adaptive  digital  element) 
kiinstliches  neuronales  Netz  ( artificial  neural  network) 
aktueller  Zahlerstand  des  ADDIE 
alter  Zahlerstand  des  ADDIE 

zufallige  und  jeweils  zu  alien  anderen  Bitstromen  des 
Netzes  stochastisch  unabhangige  Folge  von  Nullen  und 
Einsen  auf  einer  Leitung 

Negation  der  Folge  B 


BX,  By,  Bz... 

entsprechende  Bitfolgen,  die  durch  Codierung  aus  Ma- 
schinenvariablen  x,y,z..  gewonnen  werden 

B-Funktion 

Bogenfunktion  (Funktion  bogenformiger  Kennlinie) 

BEz*8 

Buchstabenerkennung  bei  einer  binaren  z  mal  s  Bitmap- 
Darstellung 

BP 

Backpropagation  (back  propagation) 

D(u,  v) 

Absoluter  Abstand  zwischen  den  reellen  Werten  u  und 
v,  d.h.  D(u,v)  =  \u  —  v| 

DSC 

Digital-Stochastik-Codierer 

E 

gesamter  Lemfehler  liber  die  ganze  Trainingsmenge 

E 

durchschnittlicher  Lemfehler  uber  Nf  hintereinander- 
folgenden  Epochen 

Ei 

durchschnittlicher  Lemfehler  liber  Epoche  i 

m 

ACON 

ADD 

ADDIE 

ANN 

az 

az0 

B 

B 
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E 

IND 

INDIE 

iz 

izo 


K 

LMS 

lsb 

M 


M-Bereich 


MLN 

msb 

n 

Til 

N 

N 


Nf 


NN 

Nn 


Nt 


Ne 

o 


durchschnittlicher  Lemfehler  iiber  die  gauze  Trainings- 
menge 

Zahlerlange  des  INDIE 

integratives  Giied  zur  Speichenmg  der  Gewichte 

aktueller  Zahlerstand  eines  INDIE 

alter  Zahlerstand  eines  INDIE  vor  einem  gewissen  Zeit- 
punkt  des  Trainings 

Anzahl  der  zur  Verfiigung  stehenden  Trainingsmuster 
least  mean  square 
least  significant  bit 

Maschinenvariable,  die  durch  lineare  Transformation 
und  Quantisierung  aus  einer  Problemvanablen  gewon- 
nen  werden  kann  und  im  Intervall  [— 1, 1]  liegt 

Wertebereich  von  Maschinenvariablen,  d.h.  Intervall 

[-1,1] 

multilayer  feedforward  network(s) 

most  significant  bit 

Anzahl  der  Eingange  eines  Neurons 

Anzahl  der  Neuronen  in  der  Schicht  I,  l  =  1,  ...,N 

Anzahl  der  Schichten  des  Netzes 

Anzahl  der  Takte  fiir  die  Dauer  des  Anlegens  eines  Trai- 
ningsmusters 

Anzahl  der  hintereinanderfolgenden  Epochen  eines  Trai- 
ningsvorgangs 

Neuronales  Netz  ( neural  network) 

Anzahl  der  Epochen  fiir  den  zwangsweisen  Abbruch  ei¬ 
nes  Trainingsvorgangs 

Anzahl  der  Wiederholung  eines  gleichaxtigen  Trainings¬ 
vorgangs 

durchschnittliche  Anzahl  von  Epochen,  die  das  Trai¬ 
ning  zur  Konvergenz  benotigt 

Eingangssignal  eines  Neurons 
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Opj 

Ausgangssignal  des  j-ten  Neurons  beim  Anlegen  des 
p-ten  Trainingsmusters  beim  Netzeingang 

OCON 

one  class  in  one  network 

OCR 

Optical  Character  Recognition 

P(B  =  1) 

Wahrscheinlichkeit  fur  das  Auftreten  einer  Eins  in  der 
Folge  B 

Pd 

Parity-Problem  der  Dimension  d 

Pmax 

Normierungsfaktor  fiir  Problemvariable:  Grofiter  vor- 
zeichenloser  Betrag  aller  sich  in  einem  NN-Netz  befin- 
denden  Datengro&en 

R 

Problemvariable  mit  einem  problemabhangigen,  endli- 
chen  Wertbereich  mit  theoretisch  idealer  Genauigkeit 

n 

reelle  Zufallszahlen,  die  im  Interval  [-1,1]  liegen,  i  =  1, 2 

Rn 

Bit-Anzahl  des  aktuellen  Bereichs  im  Schieberegister 
fur  die  neue  S-Funktion 

Rt 

Schwelle  fiir  die  neue  S-Funktion 

RUN 

Runlange  des  Squashfimktionsautomaten,  welche  die 
Steilheit  der  Squashfiinktion  bestimmt 

RUNAB 

Runlange  des  B-Funktionsautomaten,  welche  den  Ver- 
lauf  der  B-Funktion  steuert 

S(.) 

Sigmoidfunktion  s(x)  = 

S'(.) 

Ableitung  der  Sigmoidfunktion  s'(ar)  =  //s(rr)[l  -  s{x)] 

S-Punktion 

Squashfunktion,  die  eine  S-formig  gekriimmte,  mono¬ 
ton  steigende  Kennlinie  hat 

Sk 

Vektor  fiir  die  Suchrichtung  bei  der  k-ten  Iteration 

Skip) 

Vektor  fiir  die  Suchrichtung  der  k-ten  Iteration  beim 
Anlegen  des  p-ten  Trainingsmusters 

sij(P ) 

Komponente  des  Vektors  Skip) 

t 

Soll-Vektor  aus  der  Trainingsmenge 

t 

theoretisches  Resultat  einer  Berechnung 

tc 

Taktperiode 
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tcA 

Taktfrequenz,  mit  welcher  der  Zahlerstand  fiir  die  De- 
codierung  eingelesen  wird. 

tj 

j-te  Komponente  von  Vektor  t 

T 

Anzahl  Takte 

ULSI 

ultra-large-scale  integration 

VLSI 

very-large-scale  integration 

W-Bereich 

Wertebereich  der  Wahrscheinlichkeit,  namlich  das  In- 
tervall  [0, 1] 

Wr 

Starke  des  Rauschanteils  fiir  die  Gewichte 

Wij 

Gewichte,  die  durch  Pmax  normiert  wurden 

W 

Vektor  der  Dimension  S {W  €  B?),  welcher  alle  Ge¬ 
wichte  des  Netzes  umfafit. 

tii 

Gewichtsvektor  des  i-ten  Eingangs  eines  Neurons, 
i=l,2,...n 

w®(k) 

von  der  k-ten  Iteration  gewonnenes  Gewicht  an  der  Lei- 
tung  zwischen  Neuron  i  in  der  Schicht  l  —  l  und  Neuron 
j  in  der  Schicht  l 

Xr 

Starke  des  Rauschanteils  fiir  die  Eingaben 

X 

Stichprobenmittelwert  einer  Zufallsvariablen 

X 

Zufallsvariable 

X 

Abschatzung  einer  Variablen  X  im  Intervall  [0, 1] 

Aktivierungsvektor  der  Schicht  /;  =Eingangsvektor 

u  des  Netzes 

xf 

j-te  Komponente  von  Vektor 

XjyVj 

normierte  Trainingsvektorpaare,  j=l,2,...,K 

Xi 

Zufallsgrofie 

a 

Momentum-Konstante 

5 

lokaler  Fehler  eines  Neurons  als  Produkt  der  Ableitimg 
der  Sigmoidfunktion  und  dem  summierten  gewichteten 
Fehler  der  nachgeschalteten  Neuronen 

Gewichtsanderung  fur  w^J(k)  bei  der  k-ten  Iteration 
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AwK  (k  +  l,r) 
VEp{Wk) 

7 

P> 

A 


o 

S 


Gewichtsanderung  fur  w^(k)  bei  der  Presentation  des 
r-ten  Musterpaares  wahrend  der  k-ten  Iteration 

Gradient  der  k-ten  Iteration  beim  Anlegen  des  p-ten 
Trainingsmusters 

Lernrate 

Steilheit  der  Sigmoidfunktion 

Steilheit  der  Sigmoidfunktion  fiir  den  Fall,  da£  das  [i]- 
Problem  auftritt 

Steilheit  der  Sigmoidfunktion  fiir  den  Fall,  dafc  die  [0,1]- 
Einschrankung  auftritt 

Standardabweichung 

Anzahl  samtlicher  Gewichte  in  einem  Netz 


amax  maximale  Standardabweichung,  welche  in  der  Mitte  des 

W-Bereiches  gewonnen  werden  kann 

Ox  (0»  1)  Maximale  Abweichimg  des  Vektoren  x  vom  Werte- 

bereichsrand. 


0#(O, 1)  =  2  max(  min  D{x^j))  (C.l) 

*  i= o,i 


vorgegebene  positive  Konstante,  die  beliebig  klein  wer¬ 
den  kann. 
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Lebenslauf 


Name 

Vorname 

Geburtstag 

Geburtsort 

Familienstand 

Schulbildung 


Studium 


Berufstatigkeit 


1966-1972 

1972-1976 

1990- 1991 

1991- 1992 

1978-1982 


1985-1988 


1993-1994 


1976-1978 

1982-1985 


1988-1990 


seit  1995 


Zhu 

Liyun 

08.  November  1957 
Beijing,  China 
verheiratet,  zwei  Kinder 
Grundschule  in  Chengdu,  China 
Mittelschule  in  Chengdu,  China 
Sprachkurs  am  Goethe-Institut,  Beijing 
Sprachkurs  am  Goethe-Institut,  Munchen 

Studium  der  Mathematik  an  der 
Xian-Jiaotong  Universitat 
Fachrichtung  Computer-Mathematik 
Abschlufi  „Bachelor  of  Science^ 

Studium  der  Angewandten  Mathematik 
am  „Chengdu  College  of  Geology" 
Fachrichtung,  Geomathematik 
Abschlufi  faster  of  Sciencd4 
Aufbaustudium  an  der 
Mathematisch-Naturwissenschaft  lichen 
Fakultat  der  CAU  Kiel 
Fachrichtung:  Geophysik 

Techniker  im  Rechenzentrum 
des  „Chengdu  College  of  Geology" 

Dozent  an  der  Fakultat  fiir 
Angewandte  Mathematik 
am  „Chengdu  College  of  Geology1 
Geleisteter  Unterricht: 

„Datenverarbeitung  fur  Geophysiker  “ 
„Computersprachen  fur  Programmierer  “ 
„Komplexe  Funktionen  und  Vektor-Analysi^4 
„Statistische  Mustererkennun£‘ 
Systemadministrator  am  Rechenzentrum 
des  „Chengdu  College  of  Geology" 

Doktorand  und  wissenschaftliche 
Hilfskraft  an  der  Professur  Technische 
Informatik  der  Universitat  der  Bundeswehr 
Hamburg 


